DadosAbertosDeFeira/diario-de-feira

Extrair tópicos abordados em uma edição do diário

Opened this issue · 2 comments

Nessa edição do DO de Feira de Santana, por exemplo, tem a nomeação das pessoas do conselho municipal de turismo. A informação importante, ou seja, o tópico que pode resumir esse trecho seria: O decreto Nº 12.288 nomeia membros do CONSELHO MUNICIPAL DE TURISMO DE FEIRA DE SANTANA - COMTUR.

Referências:

http://dspace.sti.ufcg.edu.br:8080/xmlui/handle/riufcg/19755 / https://github.com/alvesmatheus/reconhecimento-temas-comissoes
https://texthero.org/docs/getting-started

Essa issue está bloqueada até que entendamos como extrair tópicos ou palavras relevantes do texto do diário. Mais detalhes aqui.

Eu tô fazendo uma investigação de como usar ChatGPT e/ou Bard para resumir o conteúdo das edições do diário (caso possível).

Até agora alguns desafios:

  • o número de tokens suportados (4000 para o ChatGPT)
  • suportar o português do Brasil (não é possível para o Bard)

Algumas coisas que podemos fazer:

  • extrair dos conteúdos dos diários que temos no banco quais são os sumários declarados pra ver o que normalmente tem; ver se normalmente fica dentro do limite
  • Ver a média do tamanho dos diários e o que faz uma edição ser maior que o normal