Команда DSeTEAM, de_interim_project_team3:

Andrey Syubaev @asyubaev90 Александр Коковихин @alexanderkockovihin Денис Прохоров @prokhorov_ds Евгений Хайдуков @khaidukov_eugeniy

Презентация

1. Приветствие команды

  1. название (если придумывали);
  2. работали над переносом данных из хранилища S3 в Metabase, демонстрации анализа полученных данных в графиках Metabase;
  3. результатом стала реализация загрузки данных по времени в Airflow, копирвоания файлов между слоями в БД Postgres, анализ данных в Metabase, вывод графиков.

2. Реализация хранилища

  1. Для реализации задачи в базе данных созданы слои STG DDS. В STG расположены первичные данные, загруженные из хранилища. В слое DDS размещена результирующая «плоская» таблица с полями, сведениями загруженных данных;
  2. В STG - ROW данные из загрузки с временными метками, плоская таблица в слое DDS, которая позволила выполнить анализ.

3. Реализация пайплайна

  1. Джоба работает хорошо!
  2. Загружали данные через Airflow, обрабатывали данные в программе Spark. Анализ делали в Metabase;
  3. Для добавления новых данных будут добавлены новые поля в DDS слой, изменен скрипт загрузки, будут изменен анализ Metabase;
  4. Для загрузки данных использовался оркестратор Airflow.

4. Дашборд (показывать всё, делясь экраном)

  1. создали графики «Распределение событий по часам», «Количсество купленных товаров в разрезе часа»;

5. Сложности, находки, выводы

  1. Долго подключались к инфраструктуре, мало времени оставили на документирование.
  2. Хорошо получились работа со SPARK и анализ в Metabase – закономерности найдены.
  3. Нашли новое поле в JSON, которого не было в таблице организаторов.
  4. В следующий раз больше времени можно уделить анализу данных, лучше координировать работу.