Собственная реализация логистической регрессии. Оценка её производительности на синтетических многомерных данных. Реализация методов отбора признаков.
Асташов И.В., 2024.
Проект выполнен в рамках курса «Машинное обучение» магистерской программы НИУ ВШЭ «Машинное обучение и высоконагруженные системы».
Самостоятельно разработать модель логистической регрессии для определения водителей, которые в ближайший год воспользуются своей автомобильной страховкой (задача бинарной классификации). Используются многомерные данные Kaggle Porto Seguro’s Safe Driver Prediction.
- Реализация логистической регрессии с использованием градиентного спуска и стохастического градиентного спуска;
- Оценка качества реализованных моделей на данных.
Реализация методов работы с категориальными переменными:
- One-hot-кодирование;
- Счетчики с добавлением шума. Где каждый категориальный признак заменяется на среднее значение целевой переменной по всем объектам, имеющим одинаковое значение в этом признаке.
Для отбора признаков в были рассмотрены следующие методы:
-
Встроенные методы. Отбор признаков происходит на основе весов, присвоенных признакам моделью;
-
Методы фильтрации. Отбор признаков основан на значимости признаков, оцениваемой через t-статистику;
-
Методы обертки. Отбор признаков осуществляется путем исключения поочередно одного из признаков и оценки изменения качества модели.