Projeto: Pipeline de Dados - consumindo dados de uma Api

Motivação do Projeto

Desenvolver um pipeline de dados que colete os dados diários do covid de uma api a fim de acompanhar a evolução da pandemia no Brasil.

Descrição do Projeto

Este projeto será criado em três passos:

Coleta dos dados via API por meio do Python;
Processamento dos dados utilizando spark;
Realizando a ingestão de dados em banco postgree;

Ambientes utilizados: Azure Databricks e Database.

1 Etapa:

A coleta de dados foi realizada por meio do Python, utilizando a biblioteca requests foi possível consumir os dados direto da url da api.

2 Etapa:

Após a etapa de extração, foi realizado alguns tratamento de dados utilizando Spark, alguns passos estão contidos abaixo.

3 Passo:

Com os dados no formato desejado, foi realizado o insert nos dados, o ambiente utilizado foi postgee hospedado dentro da azure.

Resultado:

Por fim, realizei uma consulta para validar se os dados foram inseridos corretamente:

Pipeline finalizado, basta agendar para que seja executado todos os dias , assim conseguiremos realizar esse acompanhamento com a granularidade de um dia.