Objetivo principal é a entrega de um dashboard para área de BI utilizando processos de engenharia de dados em cloud AWS.
O notebook contempla toda a exploração e criação física dos processos necessários para um projeto de engenharia de dados básico.
Etapas:
- Análise dos dados
- Entendimento de "erros" de digitação e/ou linhas/colunas duplicadas (tipagem de dados)
- Correção e conversão dos arquivos para formato Parquet e envio para outro bucket (Refined Zone)
- Criação de diagrama com as tabelas e relacionamentos existentes
- Fluxograma do processo de ingestão de dados até entrega de dashboards para a área de BI e clientes.
- Dashboards foram desenvolvidos em Power BI utilizando o conector Athena.
Itens adicionais:
- Mapeamento das fontes de dados
- Criação das camadas para ingestão e tratamento dos dados
- Criação de Novas Tabelas (Spark SQL)
Conforme o diagrama proposto, este projeto utilizará 3 tabelas
- 1 tabela fato - Todos os registros de músicas escutadas por usuário
- 1 tabela dimensão - Todos os usuários
- 1 tabela dimensão - Todas as musicas/artista Diagrama feito no Draw.io
- Conexão realizada via Athena
- Dados históricos de streaming para o ano de 2020
- Ideia principal:
- Apresentar o comportamento de streamings ao longo do ano de 2020, mapeando o principal gênero dos usuários.
- Quais artistas, álbuns e data de lançamento de discos e singles apresentaram maiores resultados.
- Fornecer um dashboard para entendimento macro das informações históricas, e futuramente desenvolver estudos específicos, de acordo com a necessidade da empresa.
- O arquivo PBIX para edição do dashboard está diponível no Google Drive (https://drive.google.com/file/d/1jysdK17_FkQNEh5PKehDv8FBuJYMLwRX/view?usp=sharing)
- Endereco bkt origem: s3://bkt-musicstream-bi/Files/RawZone/
- Endereco bkt destino: s3://bkt-musicstream-bi/Files/RefinedZone/
- music_info_dim (formato parquet)
- listening_history_fact (formato parquet)
- user_id_dim (formato parquet)