possíveis erros ortográficos
Closed this issue · 3 comments
wellington36 commented
- freqüentou (doc 4121) (trema)
- co-autoria (docs 10921 e 11539) (prefixo co-)
- co-autor (doc 11201) (prefixo co-)
wellington36 commented
Dos casos citados olhando para todos os textos do dhbb temos:
Casos com trema:
- 982 vezes "conseqüente"
- 736 vezes "conseqüência"
- 211 vezes "conseqüências"
- 153 vezes "freqüentou"
- 107 vezes "conseqüentemente"
- 105 vezes "freqüentes"
- 100 vezes "freqüência"
- (dentre outras 141 palavras com trema)
Casos com prefixo "co-" exceto os iniciados por "h":
- 88 vezes "co-autoria"
- 26 vezes "co-autor"
- 8 vezes "co-gestão"
- (dentre outros 44 palavras)
Casos com "éi" ou "ói":
- 685 vezes "idéia"
- 387 vezes "idéias"
- 384 vezes "assembléia"
- 29 vezes "tablóide"
- 11 vezes "apóia"
- (dentre outras 50 palavras)
arademaker commented
Em 8abab33 corrigi os casos acima destacados pelo @wellington36. Existem outros casos de erros de grafia e o script issue-48.sh
definitivamente não é a melhor forma de corrigir em batch erros ortográficos.
- palavras devem ser corrigidas, não sequencias de caracteres que podem ser parte de um palavra.
- case-insensitive
- inflexões
Idealmente, uma correção em batch deveria considerar estes casos. Mas vou fechar o issue. considerando que a manutenção dos textos será sempre uma tarefa constante.
arademaker commented
Rodando
% for f in *.text ; do cat $f | aspell --lang=pt_BR list ; done > miss
% sort miss | uniq -c | sort -nr | wc -l
28242
Ou seja, temos um total de 28K palavras não reconhecidas pelo aspell. Muitas abreviações ou siglas. Casos óbvious acima de 100 ocorrências foram corrigidos em 475ddf8.