/VKR-corpus-linguistics

Исследование методов статистического анализа текстов, расчет основных статистических показателей для характеристики текстов

Primary LanguageJupyter Notebook

Программные средства для сравнительного анализа переводов художественных произведений на основе корпусов языка

Исследование методов статистического анализа текстов, расчет основных статистических показателей для характеристики текстов

Данный программный модуль разработан в рамках ВКР ОП "Информатика и вычислительная техника"

Разработанный программный комплекс позволяет определить влияние языка и стиля автора на схожесть текстов. Для подсчета характеристик текстов в работе использованы методы математической статистики и машинного обучения.

Список модулей программного комплекса

  • Предобработка текста
  • Подсчет частотности
  • Расчет статистических характеристик
  • Растчет коэффициента семантической схожести текстов
  • Корреляционный анализ

Как запустить проект

Запустите Оценка семантического сходства текстов.ipynb локально

  1. Клонируйте этот репозиторий, установите необходимые библиотеки и запускайте код в любой среде IDE с поддержкой ipynb
  2. Запустите, чтобы установить все необходимые библиотеки
    pip install -r requirements.txt
    
  3. Откройте python notebook в IDE с поддержкой ipynb

Как запустить приложение

Запустите main.exe локально

  1. Скачайте main.exe
  2. Запустите приложение с компьютера, на котором есть доступ в интернет

Загрузка приложения занимает около 10-20 секунд После загрузки пользователю открывается окно для ввода данных image Пользователю необходимо выбрать файл произведения, язык на котором оно написано и год публикации

В поле выбора количества слов вводится количество, которое нужно для формирования списка топ самых популярных и самых непопулярных слов

image

Как выглядят поля выбора

image image

Результаты выполнения программы

image image