Скрипт data_collector_dag.py содержит четыре таска:
-
load_csv_op
загружает данные по заказам -
load_transactions_operations_op
загружает данные по транзакциям из json -
load_from_postgres_op
подгружает данные о пользователях и товарах -
save_data_op
собирает финальный датасет и загружает его в базу
Промежуточные данные храняться в data в виде csv файлов.
Для корректной работы скрипта должны быть установлены зависимости:
pip install -r requirements.txt
Код написан в образовательных целях на онлайн-курсе Airflow 101.