Este repositório é uma parte integrante do workshop "Como estruturar um projeto de dados do Zero". O intuito aqui é fornecer uma base e uma estrutura padronizada para iniciar projetos de engenharia, ciência e análise de dados. O foco principal é em boas práticas, automação, testes e documentação.
-
Entender a estrutura padrão de projetos: Isso inclui a organização de diretórios, como o código-fonte, testes, documentação, entre outros.
-
Estruturas padrões em projetos de dados: Vamos refatorar o projeto utilizando classes, módulos e boas práticas em uma ETL.
-
Familiarizar-se com ferramentas de desenvolvimento: Abordaremos o uso de ambientes virtuais e discutiremos ferramentas como PIP, CONDA e POETRY.
-
Testes com Pytest: Garanta que seu código funcione como esperado, criando testes unitários e de integração.
-
Versionamento com Git e GitHub: Aprenda a versionar seu projeto e a usar o GitHub para colaboração e publicação.
-
Documentação com MKDocs: Você vai aprender a documentar seu projeto com MKDocs e a publicar sua documentação no GitHub Pages
-
Automatização e CI/CD: Configurar rotinas de integração e entrega contínua para manter a qualidade do projeto.
-
VSCode: É o editor de código que vamos utilizar no workshop. Instruções de instalação do VSCode aqui.
-
Git e GitHub:
- Você deve ter o Git instalado em sua máquina. Instruções de instalação do Git aqui.
- Você também deve ter uma conta no GitHub. [Instruções de criação de conta no GitHub aqui] (https://docs.github.com/pt/get-started/onboarding/getting-started-with-your-github-account).
- Se você for usuário Windows, recomendo esse vídeo: Youtube.
- Tutorial de Git e Github básico Ebook.
- Se você já é usuário Git, recomendo o vídeo do Akita: Youtube.
-
Pyenv: É usado para gerenciar versões do Python. Instruções de instalação do Pyenv aqui. Vamos usar nesse projeto o Python 3.11.3. Para usuários Windows, é recomendado assistirem esse tutorial Youtube.
-
Poetry: Este projeto utiliza Poetry para gerenciamento de dependências. Instruções de instalação do Poetry aqui.Se você é usuário Windows, recomendo assistir esse vídeo: Youtube. Que instala o Python, Poetry e VSCode. Mas um simples comando PIP INSTALL POETRY já resolve.
Sugestão de leituras. Ebook 1 - Testes Ebook 2 - Github Actions Ebook 3 - Na minha máquina funciona
- Clone o repositório:
git clone https://github.com/lvgalvao/dataprojectstarterkit.git
cd dataprojectstarterkit
- Configure a versão correta do Python com
pyenv
:
pyenv install 3.11.3
pyenv local 3.11.3
- Instale as dependências do projeto:
poetry install
- Ative o ambiente virtual:
poetry shell
- Execute os testes para garantir que tudo está funcionando como esperado:
task test
- Execute o comando para ver a documentação do projeto:
task doc
- Execute o comando de execucão da pipeline para realizar a ETL:
task run
- Verifique na pasta data/output se o arquivo foi gerado corretamente.
Para dúvidas, sugestões ou feedbacks:
- Luciano Filho - lvgalvaofilho@gmail.com