/produv_o4ka

Primary LanguageJupyter Notebook

EVRAZ AI CHALLENGE

EVRAZ AI CHALLENGE

ML BOTALKA TEAM

  • Гарипов Роман

  • Константинова Елизавета

  • Андронов Михаил

  • Бородачев Сергей

  • Степанов Никита

Задача 1 – Продуйте металл через Data Science😈💨💨🍏🍎

Ссылка на условия задачи

Репозиторий

Репозиторий состоит из следующих разделов :

  • util -- модуль в котором содержатся методы для чтения данных, предобработки данных, создания новых фичей, отсеивания фичей, сохранения и загрузки моделей библиотеки CatBoost в файлы, кросс-валидация с использованием метрики из условия заданий, предикта на тестовых данных и т д
  • data, data_chronom -- папки для расположения нагенерённых данных
  • Jupyter ноутбуки в корне репозитория -- для генерации соотвествующих данных, обучения и валидации моделей, для предикта на тестовых данных
  • Файл config.yaml в котором содержатся конфиги проекта

Инструкция по воспроизведению результатов:

  1. Необходимо установить все зависимости из файла requirements.txt : pip install -r requirements.txt
  2. Необходимо запустить все ноутбуки(прогнать все ячейки, это займет некоторое время:) ), которые генерируют новые данные:
    1. reduce_ts.ipynb -- редьюсинг данных из produv,csv и gas.csv
    2. clustering.ipynb -- применение кластеризации для генерации лейблов для каждой плавки
    3. plavki.ipynb -- применение target encoding для генерации фичей
    4. chronom_duration.ipynb, chronom_ts.ipynb -- генерация фичей из таблицы chronom.csv
    5. preprocess.ipynb -- для объединения всех полученных данных
  3. Для обучения модели запускаем все ячейки ноутбука train.ipynb
  4. Для предсказания результата на тестовых данных запускаем ноутбук predict.ipynb

Зависимости

  • pandas
  • numpy
  • datetime
  • tqdm
  • category_encoders
  • matplotlib
  • catboost
  • hdbscan
  • tsfel
  • scikit-learn

Подзадача

Идеи решения дополнительное задачи лежат в файле task-2.ipynb