/MDS-Master-Thesis

Master Thesis for MDS HSE program

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

MDS-Master-Thesis

Master Thesis for MDS HSE program

Магистерская диссертация MDS HSE

Данная диссертация подготовлена в виде проекта по обработке данных в форме с персональными данными сотрудников.

В рамках диссертации стояли основные задачи - обеспечить корректное форматирование содержимного ячеек, а также исправление орфографии.

Для выполненния данных задач мы используем как методы, основанные на правилах (через регулярные выражения), так и модели глубокого обучения (для классификации слов в именах и адресах, исправления орфографии). Для исправления орфографии используется одна из передовых моделей: M2M100-1.2B, для классификации элементов имен и адресов мы используем две отдельные модели: ruBert-base для имен и rubert-base-cased для адресов.

В результате получен ETL, сканирующий входящую папку на наличие новых документов, обрабатывающий заполненную информацию и записывающий исправленные данные в шаблон формы.