Autor: Gabriel Benvegmi
Orientador: Prof. Dr. Marcos Lopes
São Paulo, 2024
Esse repositório contém conteúdos relacionados à monografia apresentada ao Programa de Educação Continuada em Engenharia da Escola Politécnica da Universidade de São Paulo como parte dos requisitos para conclusão do curso de Especialização em Inteligência Artificial.
- Em
/data
encontram-se os dados usados nesse trabalho, tanto aqueles usados como entrada, quanto aqueles gerados como saída; - Em
/notebooks
estão os notebooks em formato ipynb, gerados no Google Colab, que facilitaram a realização desse trabalho; - E em
/src
estão presentes os códigos-fonte para os processos de web-scraping e extração dos textos a partir dos PDFs.
Detalhamentos maiores estão nas Seções abaixo.
Os arquivos presentes em /notebooks
estão numerados de acordo com a ordem lógica de seu uso ao longo deste trabalho e, portanto, podem ser entendidos como partes sequenciais deste. Os notebooks que estão aqui apresentados são:
- Webscraping dos dados da B3
- Preparação dos dados da B3
- Análises de Convergência e Índice de Coleman Liau
- Treinamento e geração
Os arquivos com a lógica de partes do processamento estão em /src
. Eles são:
- scraper_pdf.py
- Esse arquivo contém a lógica de funcionamento dos processos de webscraping mas aqui sem necessariamente depender de um notebook para sua execução.
- extract_pdf.py
- Já aqui estão os processos para extração e processamento dos textos a partir dos PDFs para JSON, e a partir de JSON para TXT.
Instruções para execução da extração textual estão no README dentro do diretório /src
.
O dataset padrão ouro consolidado a partir da atuação de avaliadores humados com a criação de sumários de referência encontra-se em /data/dataset.csv
. As saídas geradas pelos modelos estão em /data/outputs
, com cada arquivo representando um dos modelos Bode, Mistral e T5, respectivamente.
- PDF
- Aqui estão os arquivos em formato PDF baixados a partir do site da B3.
- JSON
- Já neste diretório estão as correspondências dos arquivos baixados em PDF, mas agora convertidos pela API Extract PDF da Adobe.
- txt
- Finalmente aqui estão os JSONs pós-processados de forma a consolidar um único txt para cada documento original.
Esse trabalho pode ser referenciado no formato Bibtex conforme a seguir.
@monography{benvegmi2024,
address={São Paulo},
author={Gabriel Benvegmi},
pages={49},
pagename={f.},
school={Universidade de São Paulo},
title={Sumarização de documentos do arcabouço regulatório financeiro brasileiro},
type={Especialização},
year={2024},
url={https://github.com/gbieul/sumarizacao-b3}
}