/uff_engenharia_de_dados_com_python

Tutorial do processo de ETL usando python e suas bibliotecas

Primary LanguageJupyter NotebookMIT LicenseMIT

PRETTIER LinkedIn Hits

Engenharia de Dados com Python

dev

Report Bug · Request Feature

LINK APRESENTAÇÃO SLIDES: https://www.canva.com/design/DAFOmDZrmQs/yHFeNY5o-9A5k_NP3BepvA/view?utm_content=DAFOmDZrmQs&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton

🤔 Problema

USPTO - United States Patent Trade Office precisa de sua ajuda para analizar as patentes dos anos de 2010 até 2022. Precisamos montar uma base com o numbero do documento, titulo da patente, abstract e sua data da publicação.



🔨 Instalação e running

  1. Run the jupyter notebook


📚 Etapas do Projeto

  • Extração
    • Web Scrapping USPTO Website
    • Carregar as inforções dos arquivos no banco de dados
    • Extrair o xml do zip
    • Separar o XML grande me pequenos XML
  • Transformação
    • Ler cada XML e pegar os dados dos requisitos ja fazendo a limpeza
    • Carregar no dataframe pandas
    • Salvar logs de erros
  • Carregamento
    • Carregar os dados limpos no banco de dados

🌎 Parceria

  • Universidade Federal Fluminence
  • KISSPlatform Europe B.V.

logo-KISSPlatform

  • Universidade Federal Fluminence
  • KISSPlatform Europe B.V.

🌎 Resultado Enquetes

image image image