/extractive_summarization

Проект по курсу Физтеха "Методы оптимизации". Суть проекта заключается в исследовании методов extractive summarization.

Primary LanguageJupyter Notebook

Summarization

Суть проекта заключается в Extractive Summarization, был использован алгоритм TextRank, LexRank и контекстные эмбединги по предложению (sentence_transformers). Основной ноутбук Open In Colab

Данные

Я использовал новостные данные и скачал их по этой ссылке:

Примеры

Исходное summary - это вариант от автора.

TextRank summary или LextRank summary - это мой вариант.


Исходное summary:

московская погода придет в себя, отставит истерику в виде аномальных ливней или резкого похолодания и вернется к климатической норме. последние выходные весны будут вообще больше напоминать разгар июля. правда, после этого наступит краткий период «летней печальки»: немного похолодает и пройдут кратковременные дожди.

TextRank summary:

температура воздуха ночью +11…+16°с, днем +22…+27°с. ветер восточный, 3–8 м/с. атмосферный фон по-прежнему повышенный — 749 мм рт. ст. во вторник, 31 мая, москва окажется на границе взаимодействия антициклона на северо-востоке и циклона на западе. температура воздуха начнет повышаться, а вероятность дождей заметно понизится, и, как осторожно предполагают синоптики, в этот день осадков не будет вовсе. температура воздуха ночью +8…+13°с, днем +18…+23°с. давление продолжает стремительно падать и в этот день составит 736 мм рт. ст. в воскресенье, 5 июня, атмосферное давление немного подрастет — до 739 мм рт. ст. из-за этого в облачных полях появится больше прояснений, но без коротких локальных дождей все же не обойдется.

LextRank summary:

Температура воздуха ночью +8…+13°С, днем +18…+23°С. Давление продолжает стремительно падать и в этот день составит 736 мм рт. ст. В воскресенье, 5 июня, атмосферное давление немного подрастет — до 739 мм рт. ст. Из-за этого в облачных полях появится больше прояснений, но без коротких локальных дождей все же не обойдется. Температура воздуха начнет повышаться, а вероятность дождей заметно понизится, и, как осторожно предполагают синоптики, в этот день осадков не будет вовсе. Антициклон будет отвечать за высокое — 750 мм рт. ст. — давление, а циклон благодаря «приспешникам» — облачным полям — за пасмурную погоду и ограниченный прогрев воздуха.

Полный текст можете посмотреть в файле text.txt

Сравнение эмбедингов

Сравнение на первых 100 предложениях. Данное сравнение было реализовано в ноутбуке FindBestModel.ipynb Open In Colab

TextRank

Модель median BLUE Time
USE 0.29 6:28
XLM-R 0.27 11:29
DistilBERT 0.25 6:10

LexRank

Модель median BLUE Time
USE 0.28 6:36
XLM-R 0.27 11:09
DistilBERT 0.26 6:35

Проблемы

  1. Я использую перебор всех предложений, это кажется избыточным вариантом.
  2. В summary могут появиться предложения, которые ссылаются на те предложения, которые в summary не попали.
  3. Сложность оценивания модели: иногда summary не совпадает с исходным, но все равно хорошо описывает идею текста.

TO-DO

  • Попробовать другие контекстные эмбединги.
  • Попробовать другие методы extractive summarization.
  • Протестировать T5 для Abstractive summarization
  • Сравнить результаты
  • Уйти от перебора всех предложений.