/gerador-texto-guimaraes

Gerador de texto treinado nas obras de João Guimarães Rosa

Primary LanguageJupyter Notebook

Gerador de texto de João Guimarães Rosa

Gerador de texto treinado nas obras de João Guimarães Rosa para escrever como o autor.

O site com resultado do projeto pode ser encontrado aqui:

gerador.png

Uso

As dependências do projeto estão disponíveis em requirements.txt e podem ser instaladas com o seguinte comando:

pip install -r requirements.txt

Extração de dados

O corpus foi montado utilizando todas as obras de João Guimarães Rosa, são elas: Sagarana, Corpo de Baile, Grande Sertão Veredas, Primeiras Estórias, Tutameia, Estas estórias e Ave, palavra. Os PDFs de todos as obras foram coletados do site LeLivros.

A extração do texto dos PDFs foi realizada com o arquivo extract_pdf.py.

Informações como notas da editora, prefácios e textos teóricos de outros autores sobre os livros foram retirados manualmente.

Modelo

A construção do modelo utilizado para criar o gerador de texto está disponível em geração_texto.ipynb.

Feito por: Julia Pocciotti