Desenvolver um pipeline de dados que colete os dados diários do covid de uma api a fim de acompanhar a evolução da pandemia no Brasil.
Este projeto será criado em três passos:
- Coleta dos dados via API por meio do Python;
- Processamento dos dados utilizando spark;
- Realizando a ingestão de dados em banco postgree;
Ambientes utilizados: Azure Databricks e Database.
A coleta de dados foi realizada por meio do Python, utilizando a biblioteca requests foi possível consumir os dados direto da url da api.
Após a etapa de extração, foi realizado alguns tratamento de dados utilizando Spark, alguns passos estão contidos abaixo.
Com os dados no formato desejado, foi realizado o insert nos dados, o ambiente utilizado foi postgee hospedado dentro da azure.
Por fim, realizei uma consulta para validar se os dados foram inseridos corretamente:
Pipeline finalizado, basta agendar para que seja executado todos os dias , assim conseguiremos realizar esse acompanhamento com a granularidade de um dia.