/corpus_readability_nlp_portuguese

Córpus de Complexidade Textual para Estágios Escolares do Sistema Educacional Brasileiro

GNU General Public License v3.0GPL-3.0

Córpus de Complexidade Textual para Estágios Escolares do Sistema Educacional Brasileiro

O córpus inclui trechos de: livros-textos cuja lista completa é apresentada abaixo, notícias da Seção Para Seu Filho Ler (PSFL) do jornal Zero Hora que apresenta algumas notícias sobre o mesmo córpus do jornal do Zero Hora, mas escritas para crianças de 8 a 11 anos de idade , Exames do SAEB , Livros Digitais do Wikilivros em Português, Exames do Enem dos anos 2015, 2016 e 2017. Todo o material em português foi disponibilizado para avaliar a tarefa de complexidade textual (readability).

Lista completa dos Livros Didáticos e suas fontes originais

image

Esse corpus faz parte dos recursos de meu doutorado na área de Natural Language Processing, sendo realizado no Núcleo Interinstitucional de Linguística Computacional da USP de São Carlos. Esse trabalho foi orientado pela Profa. Sandra Maria Aluísio.

http://nilc.icmc.usp.br

Licença

Disponível Creative Commons BY 4.0

Citar a Fonte

É importante citar a fonte se fizer utilização total ou parcial do corpus.

@inproceedings{mgazzola19,
  title={Predição da Complexidade Textual de Recursos Educacionais Abertos em Português},
  author={Murilo Gazzola, Sidney Evaldo Leal, Sandra Maria Aluisio},
  booktitle={Proceedings of the Brazilian Symposium in Information and Human Language Technology},
  year={2019}
}