/Feature_Engineering_ML

Работа с признаками и построение моделей

Primary LanguageJupyter Notebook

Feature_Engineering_ML

Оглавление

Автор

Максим Савилов

Описание

Учебные проекты курса "Работа с признаками и построение моделей" профессии Data Science от Нетология.

Технологии

Проекты

1. Classification

2. Loss_function_and_optimization

3. Metrics_and_Model_selection

4. Data_problems

5. Work_with_variables

6. Decision_trees

7. Work_with_outliers

8. Feature_selection

9. Ensemble_methods

10. Clustering

11. Improving_models

12. Final_project

Classification

Решение задачи классификации физических лиц по уровню дохода. Данные для обучения модели хранятся в файле adult.csv. Целевая переменная – уровень дохода income, который принимает два значения <=50K и >50K, поэтому классификация бинарная. Остальные признаки описывают персональную информацию – возраст, образование, семейное положение и т. д. Задачу классификации нужно решить при помощи обучения модели логистической регрессии и модели опорных векторов.

Решение

Loss_function_and_optimization

Реализация логистической регрессии без использования метода LogisticRegression из библиотеки на основе датасета с ирисами Реализация метода градиентного спуска, Root Mean Square Propagation, Nesterov–accelerated Adaptive Moment Estimation.

Решение

Metrics_and_model_selection

Решение задачи классификации при помощи обучения модели логистической регрессии. Качество модели оценивается путем подсчета метрик TPR, FPR и построения графиков ROC-кривой, Precision-Recall.

Решение

Data_problems

Решение задачи по очистке данных на примере датасета с информацией о пассажирах корабля Титаник. На данных обучить модель классификации, с целевым признаком Survived (1 – пассажир выжил, 0 – погиб). Обучение модели на необработанных и обработанных данных, посчитать и сравнить метрики качества этих моделей.

Решение

Work_with_variables

Проработка улучшение метрики RMSE, R2 модели линейной регрессии путем работы с данными, а именно проведения разведочного анализа данных. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.

Решение

Decision_trees

Решение задачи регрессии используя деревья решений. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.

Решение

Work_with_outliers

Решение задачи классификации типа стекол. Данные для обучения моделей можно скачать с сайта

Решение

Feature_selection

Решение задачи классификации точек наиболее эффективно, применяя различные методы по отбору признаков. Отбор признаков предпочтительнее осуществлять основываясь на математическом аппарате, поэтому данные для этого задания будут сгенерированы, чтобы избежать признаков с физическим смыслом.

Решение

Ensemble_methods

Решение задачи классификации наличия болезни сердца у пациентов, применяя базовые ансамблевые методы.

Решение

Clustering

Решение задачи по сокращению числа цветов в палитре изображения. Картинку для выполнения работы можно выбрать любую, главное условие – наличие на ней разных цветов, для того, чтобы результат работы моделей был заметен. Для выполнения работы необходимо выделить кластеры в пространстве RGB, объекты соответствуют пикселям изображения. После выделения кластеров все пиксели, отнесенные в один кластер, заполняются одним цветом. Цвет – центроид соответствующего кластера.

Решение

Improving_models

Решение задачи классификации наличия болезни сердца у пациентов наиболее эффективно, используя на практике алгоритмы по автоматической оптимизации параметров моделей машинного обучения.

Решение

Final_project

Итоговая работа по модулю: решение задачи классификации

Решение