Проект по препроцессингу

Токенизация электронных писем

⚡Команда⚡

Бибаева Мария — разработка и тестирование
Картозия Инга — аналитическая часть и general management
Анастасия Мельник — разработка и тестирование

Checklist:

Техническое задание
Корпус текстов, на котором мы обучались и тестировали программу
Корпус текстов, на котором мы тестировали программу
Выдача прогона на тестовом корпусе
Резюме по статье
Отчет (данный файл)
Презентация
Доп. задание по аббревиатурам: def abbr_freq и результат

Результаты тестирования на 500 токенах нашего корпуса:

Точность: 0.99564

Полнота: 0.99132

Для сегментации предложений (на том же материале):

Точность: 0.951

Полнота: 0.866

Результаты тестирования на нашем резюме по статье:

Точность: 0.99071

Полнота: 1

Для сегментации предложений (на материале статьи выше):

Точность: 0.934

Полнота: 0.866

Проблема с сегментацией предложений:

'С уважением, Команда Google Аккаунтов Не отвечайте на это сообщение.'

С уважением, Учебный офис Здравствуйте, lingua!'

Дорогие студенты, Завтра мы ждем вас ВСЕХ на собрании с руководителем школы лингвистики Е.В.'

В общем-то, мы пробовали добавить в код условие, что письмо обычно начинается с устойчивых сочетаний: Дорогие, Уважаемые, Доброй ночи, Добрый вечер/день, Доброе утро, Привет, Здравствуйте, Любимые. Конец письма также довольно формализован: Ваш, Ваша, С наилучшми пожеланиями, Всего доброго, С Уважением.

Ваш МА — одно предложение

Дорогие студенты — одно предложение

Остальной текст письма делится на предложения по стандартному принципу, т.е. если слева от точки(или другого знака конца предложения) есть незаглавная буква, а справа пробел + слово с заглавной буквы.

kartozia/nlp_project