/tse-data-analysis

Data Engineering TSE data from Open Data about 2022 elections in Brazil

Primary LanguageJupyter Notebook

TSE Data Analysis

Apache Airflow Pandas

TSE Data Analysis é um projeto de engenharia de dados que aplica conceitos de ETL e Orquestração construindo uma solução baseado em um dataset dos Dados abertos do TSE para Business Intelligence e Analytics.

Integrantes: Elder, Flávio, Matheus

Data Stack

  • Pandas
  • Apache Airflow

Utilizando o Apache Airflow para a orquestração de tasks e DAGs, foi construída uma pipeline de ETL. A extração dos dados, realizada com Pandas, empregou estratégias de otimização de memória, considerando que o dataset possui aproximadamente 4 gigabytes.

Tecnologias

  • Docker
  • Jupyter Notebook
  • Poetry
  • Kubernetes
  • Google Cloud Platform