OpenCorpora/opencorpora

Устроить проверку слов, написанных с заглавной буквы, но без тегов имён собственных

grandsbor opened this issue · 2 comments

Устроить проверку слов, написанных с заглавной буквы, но без тегов имён собственных

Я это сделала этой осенью. Если подробно, то:

  • собрала в корпусе все слова, начинающиеся с заглавной буквы и не имеющие тегов Name, Geox, Surn, Orgn или Abbr, за исключением первого слова предложения и за исключением слов, написанных кэпслоком;

  • просмотрела список и либо исправляла словарь, либо делала такие токены unk, если редко в корпусе встречается.

Круто, спасибо!