/Projeto_Final_SoulCode

REQUISITOS OBRIGATÓRIOS Obrigatoriamente os datasets devem ter formatos diferentes (CSV / Json / Parquet / Sql / NoSql) e 1 deles obrigatoriamente tem que ser em CSV. Operações com Pandas (limpezas , transformações e normalizações) Operações usando PySpark com a descrição de cada uma das operações. Operações utilizando o SparkSQL com a descrição de cada umas das operações. Os datasets utilizados podem ser em lingua estrangeira , mas devem ao final terem seus dados/colunas exibidos na lingua PT-BR os datasets devem ser salvos e operados em armazenamento cloud obrigatoriamente dentro da plataforma GCP (não pode ser usado Google drive ou armazenamento alheio ao google) os dados tratados devem ser armazenados também em GCP, mas obrigatoriamente em um datalake(Gstorage ) , DW(BigQuery) ou em ambos. Deve ser feito análises dentro do Big Query utilizando a linguagem padrão SQL com a descrição das consultas feitas. Deve ser criado no datastudio um dash board simples para exibição gráfica dos dados tratados trazendo insights importantes E deve ser demonstrado em um workflow simples (gráfico) as etapas de ETL. REQUISITOS DESEJÁVEIS Implementar captura e ingestão de dados por meio de uma PIPELINE com modelo criado em apache beam usando o dataflow para o work Criar plotagens usando pandas para alguns insights durante o processo de Transformação Por meio de uma PIPELINE fazer o carregamento dos dados normalizados diretamente para um DW ou DataLake ou ambos Montar um relatório completo com os insights que justificam todo o processo de ETL utilizado

Primary LanguageJupyter NotebookMIT LicenseMIT

Projeto_Final_SoulCode

REQUISITOS OBRIGATÓRIOS

  • Obrigatoriamente os datasets devem ter formatos diferentes (CSV / Json / Parquet / Sql / NoSql) e 1 deles obrigatoriamente tem que ser em CSV.

  • Operações com Pandas (limpezas , transformações e normalizações)

  • Operações usando PySpark com a descrição de cada uma das operações.

  • Operações utilizando o SparkSQL com a descrição de cada umas das operações.

  • Os datasets utilizados podem ser em lingua estrangeira , mas devem ao final terem seus dados/colunas exibidos na lingua PT-BR.

  • Os datasets devem ser salvos e operados em armazenamento cloud obrigatoriamente dentro da plataforma GCP (não pode ser usado Google drive ou armazenamento alheio ao google)

  • Os dados tratados devem ser armazenados também em GCP, mas obrigatoriamente em um datalake(Gstorage ) , DW(BigQuery) ou em ambos.

  • Deve ser feito análises dentro do Big Query utilizando a linguagem padrão SQL com a descrição das consultas feitas.

  • Deve ser criado no datastudio um dash board simples para exibição gráfica dos dados tratados trazendo insights importantes

  • E deve ser demonstrado em um workflow simples (gráfico) as etapas de ETL.

REQUISITOS DESEJÁVEIS

  • Implementar captura e ingestão de dados por meio de uma PIPELINE com modelo criado em apache beam usando o dataflow para o work

  • Criar plotagens usando pandas para alguns insights durante o processo de Transformação

  • Por meio de uma PIPELINE fazer o carregamento dos dados normalizados diretamente para um DW ou DataLake ou ambos

  • Montar um relatório completo com os insights que justificam todo o processo de ETL utilizado.