Метрики

В качестве ключевых метрик были выбраны представленные ниже, чтобы отслеживать, на сколько хорошо мы обучили модель:

  • MSE - Mean Squared Error - сумма квадратов ошибок, показывает на сколько сильно мы ошиблись. Содержательно, когда мы видим, что другие метрики не изменяются, но ошибка на одних и тех же данных (при одном разбиении на траин и вал) уменьшается - модель становится лучше при таком же показателе точности.
  • R2 Score - Суть его работы заключается в измерении количества отклонений в прогнозах, объясненных набором данных. Проще говоря, это разница между выборками в наборе данных и прогнозами, сделанными моделью.
  • Explained variance - доля «объясненной дисперсии» равна квадрату коэффициента корреляции R2, она разделяет все недостатки последнего: она отражает не только качество регрессии, но и распределение независимых (обусловливающих) переменных.

Такие результаты у нас для моделей при генерации новых фич из данных:

With feature engineering

Model Explained variance MSE R2 Score
Best hyperopt 0.9052 726849552.52045 0.9052
CatBoost 0.9082 704468814.12118 0.9082

А такие без применения feature engineering:

Model Explained variance MSE R2 Score
Best hyperopt 0.8990 775990549.96127 0.8988
CatBoost 0.9112 680810097.78536 0.9112