Feature_Engineering_ML

Проекты

1. Classification

2. Loss_function_and_optimization

3. Metrics_and_Model_selection

4. Data_problems

5. Work_with_variables

6. Decision_trees

7. Work_with_outliers

Classification

Решение задачи классификации физических лиц по уровню дохода. Данные для обучения модели хранятся в файле adult.csv. Целевая переменная – уровень дохода income, который принимает два значения <=50K и >50K, поэтому классификация бинарная. Остальные признаки описывают персональную информацию – возраст, образование, семейное положение и т. д. Задачу классификации нужно решить при помощи обучения модели логистической регрессии и модели опорных векторов.

Решение

Loss_function_and_optimization

Реализация логистической регрессии без использования метода LogisticRegression из библиотеки на основе датасета с ирисами Реализация метода градиентного спуска, Root Mean Square Propagation, Nesterov–accelerated Adaptive Moment Estimation.

Решение

Metrics_and_model_selection

Решение задачи классификации при помощи обучения модели логистической регрессии. Качество модели оценивается путем подсчета метрик TPR, FPR и построения графиков ROC-кривой, Precision-Recall.

Решение

Data_problems

Решение задачи по очистке данных на примере датасета с информацией о пассажирах корабля Титаник. На данных обучить модель классификации, с целевым признаком Survived (1 – пассажир выжил, 0 – погиб). Обучение модели на необработанных и обработанных данных, посчитать и сравнить метрики качества этих моделей.

Решение

Work_with_variables

Проработка улучшение метрики RMSE, R2 модели линейной регрессии путем работы с данными, а именно проведения разведочного анализа данных. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.

Решение

Decision_trees

Решение задачи регрессии используя деревья решений. В качестве датасета используются данные о недвижимости Калифорнии из библиотеки sklearn.datasets.

Решение

Work_with_outliers

Решение задачи классификации типа стекол. Данные для обучения моделей можно скачать с сайта

Решение

Feature_selection

Решение задачи классификации точек наиболее эффективно, применяя различные методы по отбору признаков. Отбор признаков предпочтительнее осуществлять основываясь на математическом аппарате, поэтому данные для этого задания будут сгенерированы, чтобы избежать признаков с физическим смыслом.

Решение

Ensemble_methods

Решение задачи классификации наличия болезни сердца у пациентов, применяя базовые ансамблевые методы.

Решение

Clustering

Решение задачи по сокращению числа цветов в палитре изображения. Картинку для выполнения работы можно выбрать любую, главное условие – наличие на ней разных цветов, для того, чтобы результат работы моделей был заметен. Для выполнения работы необходимо выделить кластеры в пространстве RGB, объекты соответствуют пикселям изображения. После выделения кластеров все пиксели, отнесенные в один кластер, заполняются одним цветом. Цвет – центроид соответствующего кластера.

Решение

Improving_models

Решение задачи классификации наличия болезни сердца у пациентов наиболее эффективно, используя на практике алгоритмы по автоматической оптимизации параметров моделей машинного обучения.

Решение

Final_project

Итоговая работа по модулю: решение задачи классификации

Решение

msavilov/Feature_Engineering_ML

Feature_Engineering_ML

Оглавление

Автор

Описание

Технологии

Проекты

Classification

Loss_function_and_optimization

Metrics_and_model_selection

Data_problems

Work_with_variables

Decision_trees

Work_with_outliers

Feature_selection

Ensemble_methods

Clustering

Improving_models

Final_project