/pipeline-languages-companies

Pipeline de Dados: extraindo, transformando e carregando dados acerca das linguagens de programação utilizadas pelas empresas Amazon, Spotify e Netflix

Primary LanguageJupyter Notebook

Linguagens mais utilizadas

O projeto desenvolve uma pipeline de dados onde obtemos os dados das linguagens de programação utilizadas por algumas grandes empresas, como Amazon, Spotify, Netflix e Apple.

elt linguagens
Figura 1: Projeto de ETL das linguagens mais utilizadas

Para realizar esse projeto, é necessário criarmos um pipeline ETL para a extração, transformação e carga (em inglês, Extract, Transform e Load), conforme a figura a baixo.

elt linguagens
Figura 2: Processo de ETL

Tecnologias Utilizadas

Para implementar esse ETL foi necessário utilizar a linguagem Python, com as seguintes tecnologias:

  • Biblioteca Requests: para extrair dados de diferentes APIs;
    pip install requests
    
  • GitHub API: API da plataforma de gerenciamento de código fonte, que permite o acesso aos repositórios e informações de usuários.

O Github será utilizado como fonte dos dadados. Através da API, teremos acesso aos dados sobre as linguagens de programação utilizadas pelas empresas mencionadas em seus projetos, conforme a figura abaixo. Por fim, a biblioteca Requests facilita o envio e recebimento de informações pela internet.

elt linguagens
Figura 3: Processo de requisição do servidor

Referências

  1. Millena Gená Pereira
  2. Python e APIs: conhecendo a biblioteca Requests
  3. Quickstart
  4. git amazon
  5. git spotify
  6. git netflix