logistic-regression-implementation: A Jupyter Notebook repository from igorastashov

Собственная реализация логистической регрессии. Оценка её производительности на синтетических многомерных данных. Реализация методов отбора признаков.

Асташов И.В., 2024.

Проект выполнен в рамках курса «Машинное обучение» магистерской программы НИУ ВШЭ «Машинное обучение и высоконагруженные системы».

(1) Задача

Самостоятельно разработать модель логистической регрессии для определения водителей, которые в ближайший год воспользуются своей автомобильной страховкой (задача бинарной классификации). Используются многомерные данные Kaggle Porto Seguro’s Safe Driver Prediction.

(2) Собственная реализация логистической регрессии

Реализация логистической регрессии с использованием градиентного спуска и стохастического градиентного спуска;
Оценка качества реализованных моделей на данных.

(3) Работа с категориальными переменными

Реализация методов работы с категориальными переменными:

One-hot-кодирование;
Счетчики с добавлением шума. Где каждый категориальный признак заменяется на среднее значение целевой переменной по всем объектам, имеющим одинаковое значение в этом признаке.

(4) Отбор признаков

Для отбора признаков в были рассмотрены следующие методы:

Встроенные методы. Отбор признаков происходит на основе весов, присвоенных признакам моделью;
Методы фильтрации. Отбор признаков основан на значимости признаков, оцениваемой через t-статистику;
Методы обертки. Отбор признаков осуществляется путем исключения поочередно одного из признаков и оценки изменения качества модели.

igorastashov/logistic-regression-implementation

Собственная реализация логистической регрессии. Оценка её производительности на синтетических многомерных данных. Реализация методов отбора признаков.

(1) Задача

(2) Собственная реализация логистической регрессии

(3) Работа с категориальными переменными

(4) Отбор признаков