/antidepressants_analysis

Автоматическое выделение аспектов из отзывов на антидепрессанты

Primary LanguageJupyter Notebook

Анализ отзывов на антидепрессанты

В данной работе решается задача автоматической суммаризации нескольких документов на примере отзывов на антидепрессанты

Что такое суммаризация текста?

Суммаризация документов

Автоматическая суммаризация текста -- уменьшение размера текста с сохранением его информативности; Суммаризация отзывов -- это задача суммаризации нескольких документов; Аспект -- слово или словосочетание, которое является объектом характеристики в данном предложении.

Пример аспекта:

  • Положительный аспект

Буквально через пару недель почувствовала, что раздражительность как рукой сняло.

  • Отрицательный аспект:

В начале терапии и при увеличении дозы могут появляться тревога и раздражительность, нарушения сна, ...

Данные

Cписок анализируемых антидепрессантов

Для анализа возьмём 5 самых популярных антидепрессантов типа СИОЗС:

Методы

В результате исследования были разработаны и реализованы два подхода: с ручным и автоматическим выделением аспектов.

Метод, основанный на близости слов

  • Выделение аспектов вручную;
  • Лемматизация и получение низкоразмерного векторного представления каждого слова в отзыве и каждого аспекта при помощи word2vec;
  • Для каждого аспекта и для каждого отзыва вычисляется индикатор того, содержится ли в отзыве слово, семантически близкое к аспекту;
  • Вычисление мат. ожидания от индикатора для каждого аспекта.

Аспекты_вручную Для примера выше в качестве результата считаем, что исследуемому препарату соответствуют следущие аспекты: тошнота, раздрожительность, аппетит, депрессия и эффективность.

Автоматическое выделение аспектов

  • Текст каждого отзыва разбивается на предложения;
  • Для каждого отзыва формируется два списка: список предложений с позитивной и негативной тональностью;
  • Для каждого слова в позитивных и негативных предложениях определяем часть речи;
  • В каждом предложении для каждого существительного выделяется слово, ассоциирующееся с ним. Ассоциации вычисляем, применяя априорный алгоритм;
  • Чтобы избежать повторений, лемматизируем слова и удалим аспекты, содержащие друг друга, оставляя аспект с бóльшей длиной ([Головная, Боль, Головная боль] -> [Головная боль]) Аспекты_автоматически В результате мы получим список положительных и отрицательных аспектов по каждому препарату.

Выводы

Алгоритм с автоматическим выделением аспектов предпочтительнее по ряду причин

  • Меньше человеческих усилий;
  • Позволяет расширить задачу на суммаризацию отзывов о любых препаратах;
  • В дальнешем можно использовать кластеризацию аспектов с использованием косинусного расстояния между векторизованными аспектами.