💾📀 DeltaLake Setup Inicial

Este projeto tem como objetivo fornecer um assistente para a configuração inicial do Delta Lake, permitindo a personalização das configurações de acordo com o caso de uso do usuário.

🗄👨‍💼👩‍💼 Conceitos

Um Data Lakehouse combina as características de um Data Lake e um Data Warehouse, permitindo a análise de dados em escala e a capacidade de operar com dados estruturados e semiestruturados. O Delta Lake é um componente essencial para a implementação de um Data Lakehouse, oferecendo confiabilidade transacional, escalabilidade e desempenho para cargas de trabalho de Big Data.

Dependendo do tamanho dos dados processados, é possível utilizar diferentes bibliotecas para o processamento, como Pandas, Polars ou Spark. Este projeto visa criar um módulo que, com base nos parâmetros fornecidos pelo usuário, instancia as configurações para leitura e processamento de diversos formatos de dados, utilizando Pandas, Polars ou Spark. Além disso, o resultado do processamento final será salvo como uma tabela Delta, independente da biblioteca utilizada para o processamento de dados.

♻🎣 Funcionalidades

Configuração inicial personalizável para o Delta Lake
Suporte para leitura e processamento de dados em diferentes formatos
Integração com Pandas, Polars e Spark
Salvamento do resultado do processamento como tabela Delta

🏁🏎 Como Utilizar

Clone o repositório
Execute o assistente de configuração inicial
Personalize as configurações conforme seu caso de uso
Realize o processamento de dados utilizando a biblioteca de sua escolha (Pandas, Polars ou Spark)
O resultado final será salvo como uma tabela Delta

🧑🏽 Contribuições

Contribuições são bem-vindas! Sinta-se à vontade para abrir issues ou pull requests.

🧾 Licença