/yapracticum

Проекты курса "Специалист по Data Science"

Primary LanguageJupyter Notebook

Репозиторий с проектами курса "Специалист по Data Science" от Яндекс Практикум

Статус проекта: в разработке

В репозитории собраны все проекты выполненные на курсе, в том числе проекты с автоматической проверкой.

Цель - обобщить полученные знания и опыт, продемонстрировать полученные навыки.

Структура репозитория

Каждый проект помещён в одельный каталог, каталоги пронумерованы в порядке выполнения проектов. В каждом каталоге есть описание проекта и тетрадка с выполненным заданием.

Список наиболее интересных проектов

Ниже приведены проекты лучше всего показывающие приобретённые навыки:

  1. Выпускной проект - Решение задачи регрессии, применение моделей градиентного бустинга: CatBoost и LightGBM, настройка гиперпараметров с Optuna, анализ остатков, оценка значимости признаков с Shap.
  2. Классификация тональности текстов - Создание векторных представлений текстов с BERT и классификация комментариев на негативные и позитивные.
  3. Прогнозирование заказов такси - Анализ временных рядов и предсказание следующего значения целевой переменной (регрессия).
  4. Определение стоимости автомобилей - Пример решения задачи регрессии в том числе с применением моделей градиентного бустинга: CatBoost и LightGBM.
  5. Определение возраста покупателей - Пример работы с изображениями, модель, определяющая по фотографии возраст человека.
  6. Сборный проект №2 - Исследование данных, тестирование статистических гипотез, красивые графики, настройка гиперпараметров моделей.
  7. Отток клиентов - Борьба с дисбалансом классов целевой переменной сравнение нескольких моделей между собой, настройка гиперпараметров.
  8. Выбор локации для скважины - Оценка возможных прибыли и убытков с помощью техники Bootstrap.
  9. Сборный проект №1 - Довольно тщательное исследования данных с выводами, красивые графики, тестирование гипотез.

Выполненные проекты

Проекты расположены в хронологической последовательности, чтобы можно было оценить рост качества.

Название проекта Описание Используемые библиотеки Подробное описание
Музыка больших городов Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница). pandas README.md
Исследование надёжности заёмщиков Задача определить какие факторы влияют на возврат кредита в срок, в частности, разобраться какое влияние оказывает семейное положение и количество детей. pandas, seaborn, matplotlib README.md
Исследование объявлений о продаже квартир Задача выполнить предобработку данных и изучить их, чтобы найти интересные особенности и зависимости, которые существуют на рынке недвижимости в Санкт-Перербурге и соседних населённых пунктах. pandas, numpy, matplotlib README.md
Статистический анализ данных Предварительный анализ тарифов на небольшой выборке клиентов. pandas, seaborn, scipy.stats README.md
Сборный проект №1 По историческим данным из открытых источников выявить определяющие успешность игры закономерности. matplotlib, numpy, pandas, scipy.stats README.md
Рекомендация тарифов Задача по данным о поведении клиентов мобильного оператора определить какой из двух новых тарифов предложить пользователю. imblearn, matplotlib, numpy, seaborn, sklearn, pandas README.md
Отток клиентов Задача по историческим данным о поведении клиентов банка спрогнозировать уйдёт клиент из банка в билжайшее время или нет. category_encoders, imblearn, matplotlib, numpy, seaborn, sklearn, pandas README.md
Выбор локации для скважины Задача решить где бурить скважину с помощью линейной регрессии и техники bootstrap. matplotlib, numpy, pandas, seaborn, sklearn README.md
Сборный проект №2. Восстановление золота из руды Задача подготовить модель, которая предскажет коэффициент восстановления золота из золотосодержащей руды, используя данные с параметрами добычи и очистки. matplotlib, numpy, pandas, seaborn, scipy.stats, sklearn README.md
Защита персональных данных клиентов Необходимо защитить данные клиентов страховой компании и разработайть такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию, обосновать корректность его работы. matplotlib, numpy, pandas, seaborn, sklearn README.md
Определение стоимости автомобилей Необходимо предсказать стоимость автомобиля по историческим данным: техническим характеристикам, комплектации и ценам. CatBoost, category_encoders, LightGBM, matplotlib, numpy, pandas, seaborn, sklearn, scipy.stats README.md
Прогнозирование заказов такси Анализ временных рядов. Необходимо построить модель, предсказывающую количество заказов такси на следующий час. category_encoders, LightGBM, matplotlib, numpy, pandas, sklearn, statsmodels.tsa.seasonal README.md
Классификация тональности текстов Необходимо построить модель, классифицирующую комментарии на позитивные и негативные. joblib, LightGBM, matplotlib, numpy, pandas, seaborn, sklearn, torch, transformers README.md
Определение возраста покупателей Необходимо построить модель, определяющую по фотографии приблизительный возраст человека. keras, matplotlib, pandas README.md
Выпускной проект Необходимо построить модель, прогнозирующую температуру стали в ковше перед разливкой. catboost, lightgbm, matplotlib, numpy, optuna, pandas, seaborn, shap, sklearn README.md