/net-dwh

Проектная работа по модулю “DWH”

Проектная работа по модулю “DWH”

В рамках итоговой работы будет необходимо:

  1. В качестве источника взять демонстрационную базу авиаперевозок (описание)
  2. Запустить чистую базу данных и создать там таблицы с фактами и размерностями
  3. Наполнить базу данными из бд bookings при помощи ETL

Требуемые таблицы:

  1. Fact_Flights - содержит совершенные перелеты. Если в рамках билета был сложный маршрут с пересадками - каждый сегмент учитываем независимо
    • Пассажир
    • Дата и время вылета (факт)
    • Дата и время прилета (факт)
    • Задержка вылета (разница между фактической и запланированной датой в секундах)
    • Задержка прилета (разница между фактической и запланированной датой в секундах)
    • Самолет
    • Аэропорт вылета
    • Аэропорт прилета
    • Класс обслуживания
    • Стоимость
  2. Dim_Calendar - справочник дат
  3. Dim_Passengers - справочник пассажиров
  4. Dim_Aircrafts - справочник самолетов
  5. Dim_Airports - справочник аэропортов
  6. Dim_Tariff - справочник тарифов (Эконом/бизнес и тд)

Проверки качества данных

Для каждой таблицы в хранилище необходимо придумать и реализовать как минимум 3-4 проверки качества данных. Например, дата фактического вылета не может быть больше сегодняшнего дня. Описание каждой проверки должно быть в документации.

Некачественные строки записываются в отдельные rejected-таблицы

Решение должно содержать:

  1. SQL-скрипт создания таблицы фактов и всех справочников
  2. Трансформации
    1. ETL загрузки таблицы фактов и всех справочников
    2. Проверки качества данных
  3. Документацию, описывающую процедуру ETL и все особенности его работы
  4. ER-диаграмму созданной базы данных хранилища
  5. Скриншоты ETL-процессов