/practicum-projects

Учебные проекты, выполненные на курсе Специалист по Data Science (Yandex Practicum)

Primary LanguageJupyter Notebook

practicum-projects

Учебные проекты, выполненные на курсе Специалист по Data Science (Yandex Practicum)

Задача: построить систему, способную проанализировать поведение абонентов и предложить им новый тариф.
Данные: записи о повелении абонентов, которые уже перешли на эти тарифы.

В проекте построено несколько моделей для задачи классификации, которые выбирают подходящий тариф. Выбрана модель с максимально большим значением accuracy.

Задачи: (1) построить модель машинного обучения, которая поможет определить регион, где бурение новой скважины принесёт наибольшую прибыль, (2) проанализировать возможную прибыль и риски техникой Bootstrap. Данные: пробы нефти в трёх регионах: в каждом 10 000 месторождений с измерениями качества нефти и объёма её запасов.

На основании предоставленных данных построены модели для рассчета объемов сырья в скважинах в трех регионах. Рассчитан средний запас сырья в каждом регионе. Методом Bootstrap выбраны 500 случайных скважин из всех скважин региона, из этих 500 взяты 200 самых богатых сырьем и по ним рассчитаны прибыль и убытки. В результате выбран самый подходящий для разработки регион.

Задача: построить модель для определения рыночной стоимости автомобиля по историческим данным: техническим характеристикам, комплектациям и ценам автомобилей.

Было обучено три модели: Линейная регрессия, Случайный лес и LightGBM. Лучше всего себя показала LightGBM. При количестве итераций = 200 ее RMSE ниже, чем у леса, обучение и предсказание занимают 13 и 0.9 секунд соответственно. При этом можно уменьшить время предсказания, если сократить количество итераций.

Задача: спрогнозировать количество заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки, на основании исторических данных о заказах такси в аэропортах. Построить модель для такого предсказания.

В данные были добавлены новые признаки. Выяснилось, что лучшие резлуьтаты RMSE достигаются при использовании градиентного бустинга.

Задача: обучить модель классифицировать комментарии на позитивные и негативные на основании набора данных с разметкой о токсичности правок.

Было построено несколько моделей классификации, лучший результат F1 получен с помощью GBM.