/AlfaBattle2.0

Primary LanguageJupyter Notebook

Репозиторий с базовыми решениями ко второй задаче чемпионата.
В задаче требуется решить задачу кредитного скоринга только на основании карточных транзакций клиента.

Особенности датасета:

  1. Огромный объем: 1.5m объектов, 450m строк данных, 6gb данных.
  2. Максимальная детализация данных: 19 признаков на каждую транзакцию, пользовательская история глубиной в год (до 8к транзакций на клиента).

Структура репозитория:

baseline_boosting - решение на основание градиентного бустинга
|-- baseline.ipynb(0.737 AUC ROC Public LB) - ноутбук с решением задачи
|-- features.py - методы для генерации признаков
utils.py - методы для пакетного чтения и предобработки данных