O projeto desenvolve uma pipeline de dados onde obtemos os dados das linguagens de programação utilizadas por algumas grandes empresas, como Amazon, Spotify, Netflix e Apple.
Para realizar esse projeto, é necessário criarmos um pipeline ETL para a extração, transformação e carga (em inglês, Extract, Transform e Load), conforme a figura a baixo.
Para implementar esse ETL foi necessário utilizar a linguagem Python, com as seguintes tecnologias:
- Biblioteca Requests: para extrair dados de diferentes APIs;
pip install requests
- GitHub API: API da plataforma de gerenciamento de código fonte, que permite o acesso aos repositórios e informações de usuários.
O Github será utilizado como fonte dos dadados. Através da API, teremos acesso aos dados sobre as linguagens de programação utilizadas pelas empresas mencionadas em seus projetos, conforme a figura abaixo. Por fim, a biblioteca Requests facilita o envio e recebimento de informações pela internet.