OpenCorpora/opencorpora

Задача NLP: извлечение санскритских имен собственных

evgeniarubanova opened this issue · 4 comments

Добрый день! Меня зовут Женя, я пишу дипломную работу, одной из задач которой является извлечение санскритских имен собственных (н-р., "вайшампаяны", "Кала", "вед") из русского текста (Махабхараты) и их лемматизирование. На данный момент мне удалось извлечь бОльшую их часть с помощью проверки на вхождение в словарь Зализняка и Ефремовой. Для лемматизации использую Deeppavlov (pymorphy2 справляется хуже), дает точность (именно этих слов) 47%, род определяет с точностью в 75%.

Может быть, вы знаете какие-то инструменты, которые могут быть полезны в данной задаче? Заранее спасибо за ответ!

Я не знаю.
@svbichineva @Shimorina Может, вы что-то знаете?

Я тоже не знаю. Единственное, в pymorphy2 по умолчанию скорее всего стоит наш старый словарь, его как-то можно обновить до последней версии. @Shimorina, расскажи как.

У меня тоже нет идей. Про словарь, например, написано тут.

@evgeniarubanova Ещё можно спросить ваш вопрос в телеграм-чате по NLP: https://telegram.me/natural_language_processing
Там много народу