- Определить какой-нибудь внешний источник получения данных и способ получения этих данных (http, curl, wget, API, SQL, SparQL, ...)
- Поставить задачу для алгоритма машинного обучения, выбрать модель и метрику
- Создать инфраструктуру, например, виртуальные машины virtualbox, установить и настроить для работы необходимое программное обеспечение, в том исле airflow и mlflow, а также venv для организации работы виртуального окружения
- Создать python скрипты для
- Получения данных из внешнего источника
- Преобразования данных
- Формирования рабочего набора данных для обучения (train) и тестирования (test) модели
- Обучения модели на тренировочных (train) данных и ее сохранения
- Загрузки модели и проверки качества ее работы на тестовых (test) данных
- Добавить код airflow, позволяющий создавать и запускать на регулярной основе описанные операции проекта.
- Добавить код mlflow, позволяющий мониторить ход выполнения конвейера, сохранять и анализировать полученных артифакты.
Проект был ваполнен в виртуальноь откружение с версией питона 3.8. Конвеер запускался в Airflow. Был организован мониторинг выполнения всех операций проекта с использованием MLFlow.