На занятии рассмотрим, как создать воспроизводимые эксперименты с помощью разных инструментов. Мы будем это делать на примере решения задачи про классификацию цветков ириса.
У нас есть 3 класса цветков и 4 поля фичей из датасета в sklearn (link). Надо построить и залогировать модель машинного обучения для экспериментов на этих данных.
Для запусков экспериментов рассмотрены:
- Jupyter
- Python
- DVC
- MLflow
- Airflow
Ссылка на ноутбук
Тренировка, валидация, параметры запуска
Настройка пайплайна, параметры запуска, логи
Команды для запуска
dvc dag # проверить пайплайн
dvc repro # запуск эксперимента
dvc push # отправить данные в хранилище
dvc pull # скачать данные
dvc exp run # запуск эксперимента