Projeto Final da turma de Engenharia de Dados com Python e Google Cloud
Grupo 5 - Tema: Mudanças Climáticas
- Limpeza, normalização, tratamento e modelagem de 3 datasets públicos pertinentes ao tema pré-estabelecido com uso das bibliotecas Pandas e Pandera, além de PySpark.
- Datasets pré e pós tratamento armazendos em Bucket do Google Cloud Storage (Data Lake).
- Visualizações com Google Dataprep.
- Realização de consultas prévias com SparkSQL.
- Criação de Pipeline com Apache Beam e integração com Dataflow e Pub/Sub (Google Cloud) para tratamento/recorte específico de dataset.
- Visualizações com plotagens usando Pandas.
- Consultas e visualizações usando Google BigQuery.
- Armazenagem de Queries(consultas) específicas e Tabelas no Google BigQuery (Data Warehouse).
- Elaboração de Dashboard complexo com Google Data Studio.
- Documentação detalhada, contendo Insights justificando todo o Processo ETL, enviado à banca avaliadora