Engenharia de Dados com Python
LINK APRESENTAÇÃO SLIDES: https://www.canva.com/design/DAFOmDZrmQs/yHFeNY5o-9A5k_NP3BepvA/view?utm_content=DAFOmDZrmQs&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton
🤔 Problema
USPTO - United States Patent Trade Office precisa de sua ajuda para analizar as patentes dos anos de 2010 até 2022. Precisamos montar uma base com o numbero do documento, titulo da patente, abstract e sua data da publicação.
🔨 Instalação e running
- Run the jupyter notebook
📚 Etapas do Projeto
- Extração
- Web Scrapping USPTO Website
- Carregar as inforções dos arquivos no banco de dados
- Extrair o xml do zip
- Separar o XML grande me pequenos XML
- Transformação
- Ler cada XML e pegar os dados dos requisitos ja fazendo a limpeza
- Carregar no dataframe pandas
- Salvar logs de erros
- Carregamento
- Carregar os dados limpos no banco de dados
🌎 Parceria
- Universidade Federal Fluminence
- KISSPlatform Europe B.V.
- Universidade Federal Fluminence
- KISSPlatform Europe B.V.