cpdoc/dhbb

comentários no final dos textos

Closed this issue · 3 comments

alguns arquivos tem comentários no final dos textos, sugiro remover estes comentários dos textos para facilitar nosso processamento. Alternativas? Arquivo único de comentário? Metadados no topo dos arquivos ?

$ grep "*" *.new
11309.new:*Estranho: a última frase da linha 11 está incompleta.
11324.new:*Estranho: o sobrenome do biografado é Paes, e não Pais. Corrigir nas linhas 2, 13, 23, 25, 33, 35, 37, 39, 43, 45, 47, 49, 51, 53, 55, 57 e 59.
5487.new:*Estranho: os nomes dos periódicos da linha 31 estavam abaixo das fontes bibliográficas.
6087.new:*Estranho: tentativas de colagens de tabelas nas linhas 31 a 117, 123 a 133, 141 a 153.

Estes comentários ficaram por engano. Vou corrigir os problemas e excluí-los do final dos textos. @arademaker, eu considero os arquivos raw do repo dhbb, não é?

@suemi-higuchi raw? Não, os arquivos oficiais são sempre https://github.com/cpdoc/dhbb/tree/master/text. Nem existem mais o raw no dhbb. Este repo agora fica aqui no dhbb-nlp, é arquivo temporário.

Ah, é verdade. Comentários excluídos.