main.py, um_utils.py -- мои написанные скрипты для парсинга

canonicalize.py -- немного переделанный из um_canonicalize файл, тк их текущая функциональность была неудовлетворительна для моих нужд

done1 -- результат (только конвертированные из UD и которых нет в уже существующем UM)

done2 -- результат (UM + UD)

Проблемы при разметке:

  1. По-разному размечается настоящее время (в UM как глаголы, в UD как причастия) → переведено в формат UM
  2. В UD иногда встречалось {DU/PL} у существительных, имеющих множественное число формой дуалиса → переведено в множественное число