Pós Graduação - BI Master: Obtenção de arquivos e dados relacionados aos Acórdãos do CARF por meio de web scraping
🚧 O código ainda está no início da construção. Os estudos da biblioteca Puppeteer e da estruturação do HTML e CSS das páginas do CARF estão em andamento.
Este trabalho visa automatizar, por meio da biblioteca Puppeteer, a obtenção de acórdãos do CARF.
Uma vez alcançado este objetivo por meio de web scraping, estes documentos e dados poderão auxiliar na pesquisa por processos e acórdãos ou servirem de insumos para algoritmos de processamento de linguagem natural para previsão de decisões.
CARF é o Conselho Administrativo de Recursos Fiscais, um órgão colegiado, formado por representantes do Estado e da sociedade, com atribuição de julgar em segunda instância administrativa, os litígios em matéria tributária e aduaneira. Compete também ao CARF a uniformização da jurisprudência do órgão, mediante recurso especial das partes, quando ocorrer divergência de entendimento entre os colegiados de julgamento.
O trabalho está sendo desenvolvido com as tecnologias:
- JavaScript: linguagem de programação interpretada, de tipagem dinâmica fraca e multiparadigma. Junto com HTML e CSS, é uma das três principais tecnologias da web.
- Node.js: ambiente de execução de JavaScript baseado na engine V8 do Chrome.
- Puppeteer: Puppeteer é uma biblioteca de JavaScript utilizada para realizar web scraping e crawling, com interação de preenchimento de campos e cliques, além de permitir gerar screenshots e PDFs destas páginas.