/logistic-regression-implementation

Собственная реализация логистической регрессии. Оценка её производительности на синтетических данных с большим числом признаков. Реализация методов отбора признаков.

Primary LanguageJupyter NotebookMIT LicenseMIT

Собственная реализация логистической регрессии. Оценка её производительности на синтетических многомерных данных. Реализация методов отбора признаков.

Асташов И.В., 2024.

Проект выполнен в рамках курса «Машинное обучение» магистерской программы НИУ ВШЭ «Машинное обучение и высоконагруженные системы».

(1) Задача

Самостоятельно разработать модель логистической регрессии для определения водителей, которые в ближайший год воспользуются своей автомобильной страховкой (задача бинарной классификации). Используются многомерные данные Kaggle Porto Seguro’s Safe Driver Prediction.

(2) Собственная реализация логистической регрессии

  • Реализация логистической регрессии с использованием градиентного спуска и стохастического градиентного спуска;
  • Оценка качества реализованных моделей на данных.

(3) Работа с категориальными переменными

Реализация методов работы с категориальными переменными:

  • One-hot-кодирование;
  • Счетчики с добавлением шума. Где каждый категориальный признак заменяется на среднее значение целевой переменной по всем объектам, имеющим одинаковое значение в этом признаке.

(4) Отбор признаков

Для отбора признаков в были рассмотрены следующие методы:

  • Встроенные методы. Отбор признаков происходит на основе весов, присвоенных признакам моделью;

  • Методы фильтрации. Отбор признаков основан на значимости признаков, оцениваемой через t-статистику;

  • Методы обертки. Отбор признаков осуществляется путем исключения поочередно одного из признаков и оценки изменения качества модели.