Este projeto simula a criação de um Data Lake e um Data Warehouse utilizando Python, Pandas, SQL e outras bibliotecas relevantes. O objetivo é gerar, armazenar, analisar e visualizar conjuntos de dados aleatórios.
data_lake.db
: Banco de dados SQLite onde os dados do Data Lake são armazenados.data_warehouse.csv
: Arquivo CSV que contém os dados consolidados do Data Warehouse.data_lake
: Pasta que contém os arquivos CSV gerados com os dados do Data Lake.gerar_dados_lake.py
: Script Python para gerar dados aleatórios e armazená-los no Data Lake.analise_dados_lake.py
: Script Python para carregar os dados do Data Lake, realizar análises e criar visualizações.gerar_dados_warehouse.py
: Script Python para carregar os dados do Data Lake, transformá-los e carregá-los no Data Warehouse.README.md
: Este arquivo, fornecendo uma visão geral do projeto e instruções básicas.
O Data Lake é uma coleção de dados brutos e não processados, armazenados em sua forma original. Os scripts gerar_dados_lake.py
e analise_dados_lake.py
estão relacionados ao Data Lake.
Este script cria conjuntos de dados aleatórios e os armazena em arquivos CSV na pasta data_lake
. Cada arquivo contém 1000 linhas de dados.
Este script carrega os dados do Data Lake, realiza análises estatísticas e cria visualizações gráficas para explorar os dados brutos.
O Data Warehouse é um sistema de armazenamento de dados organizado e otimizado para análises e consultas. Os scripts gerar_dados_warehouse.py
estão relacionados ao Data Warehouse.
Este script carrega os dados do Data Lake, realiza transformações e carrega os dados no Data Warehouse, criando um arquivo CSV chamado data_warehouse.csv
.
- Certifique-se de ter o Python e as bibliotecas necessárias instaladas (
pandas
,matplotlib
,seaborn
,sqlalchemy
). - Execute o script
gerar_dados_lake.py
para gerar os dados brutos do Data Lake. - Execute o script
analise_dados_lake.py
para realizar análises e visualizações nos dados do Data Lake. - Execute o script
gerar_dados_warehouse.py
para transformar e carregar os dados do Data Lake no Data Warehouse.