/bi-master-web-scraping

Trabalho de web scraping em desenvolvimento na pós-graduação BI Master / Ciência de Dados na PUC-Rio

Primary LanguageJavaScript

Pós Graduação - BI Master: Obtenção de arquivos e dados relacionados aos Acórdãos do CARF por meio de web scraping

🚧 O código ainda está no início da construção. Os estudos da biblioteca Puppeteer e da estruturação do HTML e CSS das páginas do CARF estão em andamento.

🚀 Sobre o projeto

Este trabalho visa automatizar, por meio da biblioteca Puppeteer, a obtenção de acórdãos do CARF.

Uma vez alcançado este objetivo por meio de web scraping, estes documentos e dados poderão auxiliar na pesquisa por processos e acórdãos ou servirem de insumos para algoritmos de processamento de linguagem natural para previsão de decisões.

CARF é o Conselho Administrativo de Recursos Fiscais, um órgão colegiado, formado por representantes do Estado e da sociedade, com atribuição de julgar em segunda instância administrativa, os litígios em matéria tributária e aduaneira. Compete também ao CARF a uniformização da jurisprudência do órgão, mediante recurso especial das partes, quando ocorrer divergência de entendimento entre os colegiados de julgamento.

💻 Tecnologias utilizadas

O trabalho está sendo desenvolvido com as tecnologias:

  • JavaScript: linguagem de programação interpretada, de tipagem dinâmica fraca e multiparadigma. Junto com HTML e CSS, é uma das três principais tecnologias da web.
  • Node.js: ambiente de execução de JavaScript baseado na engine V8 do Chrome.
  • Puppeteer: Puppeteer é uma biblioteca de JavaScript utilizada para realizar web scraping e crawling, com interação de preenchimento de campos e cliques, além de permitir gerar screenshots e PDFs destas páginas.