В этом занятии мы настроим обучение модели, как если новые продовые данные на обучение к нам поступали бы постоянно каждый день. Для этого построим пайплайн данных в виде направленного ацикличного графа (Directed Acyclic Graph, DAG). В этом нам поможет инструмент Airflow.
Чтобы поднять Airflow мы будем использовтаь docker-compose. Реализуем 2 DAG'а
download
для ежедневной выгрузки данных из S3train_val
для ежедневного переобучения модели на новых даыннх и ее сериализации
Основные этапы внутри DAG'ов реализуем с помощью DockerOperator. Также используем FileSensor для проверки наличия данных перед запуском пайплайна.
После сборки цепочки Docker образов мы сможем их запустить с помощью docker compose up
.
UI Airflow будет доступен по адресу localhost:8080
. В UI будут также отображены DAG'и,
мы сможем увидеть их структуру, расписание и статусы каждого запуска.