-
Гарипов Роман
-
Константинова Елизавета
-
Андронов Михаил
-
Бородачев Сергей
-
Степанов Никита
Репозиторий состоит из следующих разделов :
util
-- модуль в котором содержатся методы для чтения данных, предобработки данных, создания новых фичей, отсеивания фичей, сохранения и загрузки моделей библиотеки CatBoost в файлы, кросс-валидация с использованием метрики из условия заданий, предикта на тестовых данных и т дdata
,data_chronom
-- папки для расположения нагенерённых данных- Jupyter ноутбуки в корне репозитория -- для генерации соотвествующих данных, обучения и валидации моделей, для предикта на тестовых данных
- Файл
config.yaml
в котором содержатся конфиги проекта
- Необходимо установить все зависимости из файла
requirements.txt
:pip install -r requirements.txt
- Необходимо запустить все ноутбуки(прогнать все ячейки, это займет некоторое время:) ), которые генерируют новые данные:
reduce_ts.ipynb
-- редьюсинг данных изproduv,csv
иgas.csv
clustering.ipynb
-- применение кластеризации для генерации лейблов для каждой плавкиplavki.ipynb
-- применение target encoding для генерации фичейchronom_duration.ipynb
,chronom_ts.ipynb
-- генерация фичей из таблицыchronom.csv
preprocess.ipynb
-- для объединения всех полученных данных
- Для обучения модели запускаем все ячейки ноутбука
train.ipynb
- Для предсказания результата на тестовых данных запускаем ноутбук
predict.ipynb
- pandas
- numpy
- datetime
- tqdm
- category_encoders
- matplotlib
- catboost
- hdbscan
- tsfel
- scikit-learn
Идеи решения дополнительное задачи лежат в файле task-2.ipynb