Este repositório representa um passo adiante na minha jornada de manipulação de dados. Enquanto o projeto anterior focava em usar Python com Pandas para processamento de dados, este projeto explora a capacidade do Spark através da interface PySpark para lidar com grande volume de dados - Big Data. Ambos os projetos usam o mesmo dataset e abordam as mesmas demandas de negócio, tornando-os perfeitos para comparação. Se você está interessado em entender as diferenças, desafios e benefícios de cada ferramenta, recomendo fortemente que acompanhe ambos os projetos em paralelo.
As demandas deste projeto refletem as do projeto anterior baseado em Python/Pandas. A ideia é replicar as mesmas análises, mas agora com a potência do processamento distribuído do PySpark. Mais informações podem ser vistas no Projeto de Manipulação de Dados com Python
- PySpark: Framework principal utilizado para processamento distribuído de grandes conjuntos de dados.
- SparkSession: Ponto de entrada para funcionalidades do Spark.
- Functions (F): Conjunto de funções para operações e transformações em dataframes.
- Data Types (como FloatType): Para definição e conversão de tipos de dados em colunas de dataframes.
- Window: Para operações de funções de janela em dataframes.
- Dataset: Gas Prices in Brazil
- Descrição: O conjunto de dados reflete os preços médios semanais dos combustíveis no Brasil de 2004 a 2019.
-
Notebook:
manipulacao_dados_pyspark.ipynb
-
output: Arquivos gerados durante a execução do notebook.
-
dados: O dataset base do projeto:
GasPricesinBrazil_2004-2019.csv
Se você estiver interessado em comparar as abordagens deste projeto com a versão Python/Pandas, confira o Manipulação de Dados com Python. Este projeto anterior serve como base para este e é uma excelente maneira de entender os contrastes entre as ferramentas e suas aplicações em cenários práticos.