Дан датасет с данными о поездках на такси. Необходимо ответить на ряд вопросов:
Как стоимость поездки скоррелирована с другими факторами? Как вы это можете объяснить?
Найдите аномальные поездки. Почему именно эти поездки вы считаете аномальными?
Постройте распределение по стоимости поездок. Проверьте гипотезу о том, что оно имеет нормальное распределение. Как вы можете это объяснить?
Из данных постройте модель, которая описывает тариф (т.е. стоимость поездки от других факторов).
Используя модель из пункта выше ответьте на вопрос: были ли в какие-то дни (или временные промежутки) скидки или акции? И если то были, то как вы можете это объяснить.
Корреляция
оставляем числовые переменные, которые могут влиять на стоимость
Между расстоянием поездки и ценой прямая зависимость. Но по графику линейной регресси мы видим, что и между ценой поездки и тарифом также есть отклонения - вероятно они и указывают на скидки и акции.