Nesse projeto passaremos pela proposta de arquitetura em nuvem para streaming/batch processing dentro do Google Cloud Platform
Possíveis melhorias no código e no pipeline:
- Adicionar manipulação de arquivos mais eficiente nas dags de ingestão. Ex: Escanear a pasta de landing por todos arquivos presentes
- Adicionar manipulação de arquivos para ter histórico + backups case seja necessário reprocessamento. EX: Landing -> Archive -> Processed/Error
- Compartimentalizar melhor as funções em arquivos "de função" para serem carregados como pacotes/libs
- Finalizar DAG twitter assim que liberada a conta de desenvolvedor
- Possível inclusão de spark/dataproc em caso de maior volume de dados
Antes de começar, verifique se você atendeu aos seguintes requisitos:
- Em seu ambiente de cloud compose instalou os seguintes pacotes PyPI
<openpyx, pandas-gbq, pandas, datetime>
- Você tem uma máquina
<Windows / Linux / Mac>
com acesso ao GCP(Google Cloud Platform)
Para instalar o , siga estas etapas:
GCP:
<Crie um bucket de dados para storage, seus datasets/procedures no google bigquery e uma instancia do cloud compose para orquestração>
Para usar , siga estas etapas:
<Após criado o bucket e as instancias mencionadas acima, abra a interface WebUI de seu cloud composer e execute as dags do projeto>