Практическое задание №3

  • Определить какой-нибудь внешний источник получения данных и способ получения этих данных (http, curl, wget, API, SQL, SparQL, ...)
  • Поставить задачу для алгоритма машинного обучения, выбрать модель и метрику
  • Создать инфраструктуру, например, виртуальные машины virtualbox, установить и настроить для работы необходимое программное обеспечение, в том исле airflow и mlflow, а также venv для организации работы виртуального окружения
  • Создать python скрипты для
    • Получения данных из внешнего источника
    • Преобразования данных
    • Формирования рабочего набора данных для обучения (train) и тестирования (test) модели
    • Обучения модели на тренировочных (train) данных и ее сохранения
    • Загрузки модели и проверки качества ее работы на тестовых (test) данных
  • Добавить код airflow, позволяющий создавать и запускать на регулярной основе описанные операции проекта.
  • Добавить код mlflow, позволяющий мониторить ход выполнения конвейера, сохранять и анализировать полученных артифакты.

Проект был ваполнен в виртуальноь откружение с версией питона 3.8. Конвеер запускался в Airflow. Был организован мониторинг выполнения всех операций проекта с использованием MLFlow.