brown-uk/nlp_uk

Модуль Lesia

Opened this issue · 2 comments

Як буде відбуватися динамічне тегування, коли треба застосувати кілька правил?
Напр., "візіта" - тут потрібна орфографічна заміна і --> и + є нестандартне закінчення родового. Як це буде нормалізувати одночасно?
У список слів з закінченням -а в родовому треба писати "візіта" (як в тексті)? Чи як?

Перший проєкт правил для ПЗТ ЛУ
Орфографічні
.йі. => .ї.
(йіх, йім, йій, свойій, звичайів, Єврейі тощо)
.*іі => .*ії

Орфоепічні, лексичні
.і. => .и.
(чі, завжді, назавжді, звідсі, почасті, чотирі, дінастія, стіль, асірійський, Тіфліс, цівілізація, історік, крітік, сімпатія, квартіра, тіф, збірання, режім, крівавий, вмірати, блакітний, кредітор, трівога, мотів, умірати тощо).
.рь => .р
М’який знак після р на кінці іменників чоловічого роду в початковій формі (царь, лікарь, лицарь, владарь, господарь, олтарь, крамарь, вихорь, пузирь, кобзарь, звірь, шинкарь, Цезарь, писарь, ліхтарь тощо), який в окремих випадках з’являється й в інших формах: бурь, вірь, матірь, теперь.
и.
=> і.

(именно, искра, иньший, имення, инак, император, инде, идолянин, испанський, играшки тощо)
.ійш. => .іш.
(пізнійше, ранійше, скорійше, найчастійше, міцнійше, труднійше, простійше, певнійше, найяснійший, докладнійше, ощаднійше, найстрашнійший, найсвятійший, найпотрібнійший, найвірнійший, цікавійший, пильнійший, новійший, найславнійший, найповнійший, найміцнійший, найвидатнійший тощо)
.*кілько=>.*кільки
.*тілько=>.*тільки
(тілько, скілько, стілько, наскілько, настілько, оскілько, остілько, ніскілько, хтозна-скілько, скілько-небудь)
.*иї => .*ії
Тверді закінчення прикметників у називному відмінку множини (напр., тиї, любиї, чорниї, білиї, ясниї, золотиї, молодиї, весняниї, німиї, темниї, срібниї, святиї, палкиї, малиї, крівавиї, зелениї, дорогиї, добриї, високиї, буйниї, широкиї, стариї, новиї, живиї, ворожиї, чудовиї, тихиї, таємниї, страшниї, смутниї, рясниї, нічниї, непевниї, мудриї, людськиї, жовтиї) і в деяких іменників (напр., нациї, партиї, орґанізациї, Франциї, цівілізациї, фікциї, фантазиї, рациї, пунктуациї).

Граматичні
.*не => .*ни
(єгиптяне, християне, галичане, римляне, вавілоняне, самаряне, росіяне, магометане, англічане, кияне, асіро-вавілоняне, ізраельтяне, правдяне, островитяне, мусульмане)
.*ре => .*ри
(бояре, болгаре)
.*ів => .*ей
(прикростів, деталів, постатів, розповідів, тінів, паралелів, подорожів, неприємностів, національностів, слабостів, повинностів, заповідів, відповідів, умілостів, капітелів, знаменитостів, галузів, банальностів, індівідуальностів, єресів)
.*ннів => .*нь
(створіннів, повстаннів, питаннів, зібраннів, вприскуваннів, виданнів, почуваннів, оповіданнів, вітаннів, бажаннів, ученнів, порівняннів, порученнів, пориваннів, переконаннів, обливаннів, непорозуміннів, нагадуваннів, змаганнів, вимаганнів)
.*ддів => .*дь
(знаряддів, привиддів)
.*ттів => .*ть
(поняттів, століттів)
.*ччів => .*ч
(обличчів)
.*жу => .*джу
(хожу, сижу, ненавижу, знахожу, вихожу, сужу, проважу, поражу, зражу, догожу, спроважу, лагожу, углежу тощо)
.*ови => .*ові
(фабрикантови, робітникови, народови, впливови, батькови, урядови, духови, братови, богови, Соломонови, Авраамови, чоловікови, хистови, флейтистови тощо)
.*ов => .*ів
(голов, гріхов)
Закінчення -а в родовому однини:
авторітета, виїзда, візіта, всесвіта, гонорара, діаґноза, діалоґа, дуета, журнала, закона, ідеала, клімата, конкурса, культа, курса, леґіона, луга, манускрипта, момента, мотіва, народа, овса, пансіона, потока, похода, престола, прецедента, приказа, прінціпа, проєкта, процеса, реферата, рода, романа, романса, сезона, сінедріона, скандала, сна, страха, суда, театра, текста, тома, трактата, тріклініума, урока, уступа, факта, фатума, хамсіна, хаоса, характера, храма, часа, шума

Окремі форми
мні => мені
него => нього
ви-те => ви
сею => сією
сего => сього
теї => тієї
меї => моєї
свеї => своєї
єі => її
племени => племені
людий => людей
близше => ближче
легче => легше

Відсутність чергування в корені:
[word="каміню|каміневі|камінем|каміні"]
[word="річі|річей|річах|річами"]
[word="зовуть|зовіть|зову|зови|зовеш"] – чи треба всю парадигму?
[word="зоветься|зовуся|зовуться|зовусь"]
Додати нестягнені форми: лілейний
жертов

Скорочення
і т. и. (і таке инше), д. (добродій), гл. (глава), до Р. Х. (до Різдва Христового), до Хр. (до Христа), єв. (євангеліє), С.-Д. (соціал-демократи), Р. У. П. (революційна українська партія).

Ще буде словник власних назв і найчастотніших загальних, з прапорцями.

Як буде відбуватися динамічне тегування, коли треба застосувати кілька правил? Напр., "візіта" - тут потрібна орфографічна заміна і --> и + є нестандартне закінчення родового. Як це буде нормалізувати одночасно? У список слів з закінченням -а в родовому треба писати "візіта" (як в тексті)? Чи як?

Тут, на жаль, досить складно, бо треба або робити всі замінити одразу (що скоріш за все буде давати гірший рез-т) або перевіряти всі можливі комбінації (що дуже довго). Питання який відсоток слів має мати декілька замін? І чи є якісь найчастіші випадки