Skillfactory_projects

Это репозиторий всех моих крупных проектов, во время обучения в Skillfactory.

В финале прохождения каждого учебного блока были относительно большие самостоятельные задания. Каждый из них раскрывает то, что бы изучено за весь период обучения.

Ниже дано краткое описание проектов и используемых навыков для их реализации. Подробную информацию и описание каждого проекта можно найти в соответствующей папке репозитория.

К некоторым проектам я возвращался позже, чтобы как-то его улучшить и внести изменения (логично перестраивал, что-то удалял, добавлял визуализацию, опробовал новые методы и т.п.). Все эти изменения отображены в README каждого проекта.

Проект 0. Github — Самый быстрый старт

Написание относительно несложной программы для решения поставленной задачи. Показывает умение работать с github и умение писать красивый читаемый код на python с использованием стандартов PEP-8.

Проект 1. Кто хочет стать миллионером кинопроката?

Ответы на аналитические вопросы по данным из крупного датасета. Умение работы с большими объемами данных с использованием библиотеки pandas. Визуализация необходимых данных с помощью matplotlib и seaborn.

Проект 2. Разведывательный анализ данных (EDA)

Всё понятно из названия 😉 Проведение первичной обработки данных. Изучение распределения всех признаков, поиск и устранение выбросов. Написание функций для упрощения работы с признаками одного типа. Визуализация распределения признаков и зависимости от них целевой переменной. Индивидуальный подход для заполнения пропусков для каждого признака. Корреляционный анализ. Выводы по поводу отбора признаков, наиболее влияющих на целевую переменную, для последующего построения наивной базовой модели для решения поставленной задачи.

Проект 3. О вкусной и здоровой пище

Написание модели для предсказания рейтинга ресторана на основе реальных данных с сайта tripadvisor. Полностью самостоятельная работа от обзора данных, EDA, feature engineering и непосредственно ML с ипользованием RandomForestTree. По условиям соревнования модель и гиперпараметры для неё были даны изначально, менять их нельзя было. Результат: метрика MAE улучшилась с 0.425 (в базовой модели) до 0.169, работа вошла в топ 8% в соревновании на Kaggle

Проект 4. Компьютер говорит «Нет»

Написание модели для предсказания вероятности одобрения кредита банком (банковский скоринг). Как и в предыдущей работе, все этапы были выполнены самостоятельно. Была проверена не одна модель, а лучшая выбрана с использованием различных метрик при классификации. На основе значений f1-score, ROC AUC, confusion_matrix была построена модель (логистическая регрессия с подобранными гиперпараметрами с помощью GridSearchCV) которая предсказывает вероятность дефолта клиента

Обновления репозитория:

09.06.2021 Создан данный файл README.md. Обновлены проекты 0 и 1.

13.06.2021 Полностью обновлен проект 2

22.06.2021 Обновлен проект 3. В результату итогое значение MAE уменьшилось. На Kaggle с 11% лучших работа подняла до 8%