Розпізнавання орфоепічного словника

Цей маленький проект створено спеціально для розпізнавання орфоепічного словника 1984 року Погрібного й орфоепічного словника 2001-2003 років.

Надалі результати й частина коду цього проекту використовуватиметься для вільного орфоепічного словника, а також для програми, що буде для тексту видавати його транскрипцію (яка в свою чергу може використовуватись читачами аудіокнижок, акторами тощо).

План:

Розпізнавання за допомогою tesseract (для словника 2001-2003 зроблено)
Написання власної програми, яка за допомогою інформації про словник (усі слова упорядковані за абеткою, наголос має бути один, транскрипція має відповідати слову) перевіряє результат та видає підозрілі рядки. Також наголос має бути проставлено всім формам слова, для чого планую використовувати ВЕСУМ (https://github.com/arysin/dict_uk).

Розпізнавання за допомогою tesseract

Словник 2001-2003 років відскановано та розпізнано (image-set-2001/).

Підготовлені файли для шрифтів:

bold: жирний шрифт слів.
italics курсивний шрифт ("мн.", "кл." тощо)
normal звичайний шрифт (форми слів, транскрипції)

Для кожного шрифту є txt файл - очікуваний текст, tiff файл - зображення й box файл - правильна позиція всіх символів.

Те саме я починав для словника Погрібного (image-set/), проте схоже, що доступної якості скану недостатньо для якісного розпізнавання. Можливо, придбаю словник і відсканую сам.

Програма для обробки розпізнаного тексту

Іде розробка.

hedrok/orpho-recognition

Розпізнавання орфоепічного словника

Розпізнавання за допомогою tesseract

Програма для обробки розпізнаного тексту