В данной работе решается задача автоматической суммаризации нескольких документов на примере отзывов на антидепрессанты
Автоматическая суммаризация текста -- уменьшение размера текста с сохранением его информативности; Суммаризация отзывов -- это задача суммаризации нескольких документов; Аспект -- слово или словосочетание, которое является объектом характеристики в данном предложении.
Пример аспекта:
- Положительный аспект
Буквально через пару недель почувствовала, что раздражительность как рукой сняло.
- Отрицательный аспект:
В начале терапии и при увеличении дозы могут появляться тревога и раздражительность, нарушения сна, ...
Для анализа возьмём 5 самых популярных антидепрессантов типа СИОЗС:
- Prozac (fluoxetine)
- Celexa (citalopram)
- Zoloft (sertraline)
- Paxil (paroxetine)
- Lexapro (escitalopram) Данные собирались из двух разных источников: Twitter.com и Otzovik.com.
В результате исследования были разработаны и реализованы два подхода: с ручным и автоматическим выделением аспектов.
- Выделение аспектов вручную;
- Лемматизация и получение низкоразмерного векторного представления каждого слова в отзыве и каждого аспекта при помощи word2vec;
- Для каждого аспекта и для каждого отзыва вычисляется индикатор того, содержится ли в отзыве слово, семантически близкое к аспекту;
- Вычисление мат. ожидания от индикатора для каждого аспекта.
Для примера выше в качестве результата считаем, что исследуемому препарату соответствуют следущие аспекты: тошнота, раздрожительность, аппетит, депрессия и эффективность.
- Текст каждого отзыва разбивается на предложения;
- Для каждого отзыва формируется два списка: список предложений с позитивной и негативной тональностью;
- Для каждого слова в позитивных и негативных предложениях определяем часть речи;
- В каждом предложении для каждого существительного выделяется слово, ассоциирующееся с ним. Ассоциации вычисляем, применяя априорный алгоритм;
- Чтобы избежать повторений, лемматизируем слова и удалим аспекты, содержащие друг друга, оставляя аспект с бóльшей длиной ([Головная, Боль, Головная боль] -> [Головная боль]) В результате мы получим список положительных и отрицательных аспектов по каждому препарату.
Алгоритм с автоматическим выделением аспектов предпочтительнее по ряду причин
- Меньше человеческих усилий;
- Позволяет расширить задачу на суммаризацию отзывов о любых препаратах;
- В дальнешем можно использовать кластеризацию аспектов с использованием косинусного расстояния между векторизованными аспектами.