cpdoc/dhbb

possíveis erros ortográficos

Closed this issue · 3 comments

  • freqüentou (doc 4121) (trema)
  • co-autoria (docs 10921 e 11539) (prefixo co-)
  • co-autor (doc 11201) (prefixo co-)

Dos casos citados olhando para todos os textos do dhbb temos:

Casos com trema:

  • 982 vezes "conseqüente"
  • 736 vezes "conseqüência"
  • 211 vezes "conseqüências"
  • 153 vezes "freqüentou"
  • 107 vezes "conseqüentemente"
  • 105 vezes "freqüentes"
  • 100 vezes "freqüência"
  • (dentre outras 141 palavras com trema)

Casos com prefixo "co-" exceto os iniciados por "h":

  • 88 vezes "co-autoria"
  • 26 vezes "co-autor"
  • 8 vezes "co-gestão"
  • (dentre outros 44 palavras)

Casos com "éi" ou "ói":

  • 685 vezes "idéia"
  • 387 vezes "idéias"
  • 384 vezes "assembléia"
  • 29 vezes "tablóide"
  • 11 vezes "apóia"
  • (dentre outras 50 palavras)

Em 8abab33 corrigi os casos acima destacados pelo @wellington36. Existem outros casos de erros de grafia e o script issue-48.sh definitivamente não é a melhor forma de corrigir em batch erros ortográficos.

  1. palavras devem ser corrigidas, não sequencias de caracteres que podem ser parte de um palavra.
  2. case-insensitive
  3. inflexões

Idealmente, uma correção em batch deveria considerar estes casos. Mas vou fechar o issue. considerando que a manutenção dos textos será sempre uma tarefa constante.

Rodando

% for f in *.text ; do cat $f | aspell --lang=pt_BR list ; done > miss
% sort miss | uniq -c | sort -nr   | wc -l
   28242

Ou seja, temos um total de 28K palavras não reconhecidas pelo aspell. Muitas abreviações ou siglas. Casos óbvious acima de 100 ocorrências foram corrigidos em 475ddf8.