Extrair tópicos abordados em uma edição do diário
Opened this issue · 2 comments
Nessa edição do DO de Feira de Santana, por exemplo, tem a nomeação das pessoas do conselho municipal de turismo. A informação importante, ou seja, o tópico que pode resumir esse trecho seria: O decreto Nº 12.288 nomeia membros do CONSELHO MUNICIPAL DE TURISMO DE FEIRA DE SANTANA - COMTUR
.
Referências:
http://dspace.sti.ufcg.edu.br:8080/xmlui/handle/riufcg/19755 / https://github.com/alvesmatheus/reconhecimento-temas-comissoes
https://texthero.org/docs/getting-started
Essa issue está bloqueada até que entendamos como extrair tópicos ou palavras relevantes do texto do diário. Mais detalhes aqui.
Eu tô fazendo uma investigação de como usar ChatGPT e/ou Bard para resumir o conteúdo das edições do diário (caso possível).
Até agora alguns desafios:
- o número de tokens suportados (4000 para o ChatGPT)
- suportar o português do Brasil (não é possível para o Bard)
Algumas coisas que podemos fazer:
- extrair dos conteúdos dos diários que temos no banco quais são os sumários declarados pra ver o que normalmente tem; ver se normalmente fica dentro do limite
- Ver a média do tamanho dos diários e o que faz uma edição ser maior que o normal