/nlp_project

Проект по препроцессингу

Primary LanguageJupyter Notebook

Проект по препроцессингу

Токенизация электронных писем

Команда

  • Бибаева Мария — разработка и тестирование
  • Картозия Инга — аналитическая часть и general management
  • Анастасия Мельник — разработка и тестирование

Checklist:

Результаты тестирования на 500 токенах нашего корпуса:

Точность: 0.99564

Полнота: 0.99132

Для сегментации предложений (на том же материале):

Точность: 0.951

Полнота: 0.866

Результаты тестирования на нашем резюме по статье:

Точность: 0.99071

Полнота: 1

Для сегментации предложений (на материале статьи выше):

Точность: 0.934

Полнота: 0.866

Проблема с сегментацией предложений:

'С уважением, Команда Google Аккаунтов Не отвечайте на это сообщение.'

С уважением, Учебный офис Здравствуйте, lingua!'

Дорогие студенты, Завтра мы ждем вас ВСЕХ на собрании с руководителем школы лингвистики Е.В.'

В общем-то, мы пробовали добавить в код условие, что письмо обычно начинается с устойчивых сочетаний: Дорогие, Уважаемые, Доброй ночи, Добрый вечер/день, Доброе утро, Привет, Здравствуйте, Любимые. Конец письма также довольно формализован: Ваш, Ваша, С наилучшми пожеланиями, Всего доброго, С Уважением.

Ваш МА — одно предложение

Дорогие студенты — одно предложение

Остальной текст письма делится на предложения по стандартному принципу, т.е. если слева от точки(или другого знака конца предложения) есть незаглавная буква, а справа пробел + слово с заглавной буквы.

Наши коды: