Программные средства для сравнительного анализа переводов художественных произведений на основе корпусов языка
Исследование методов статистического анализа текстов, расчет основных статистических показателей для характеристики текстов
Разработанный программный комплекс позволяет определить влияние языка и стиля автора на схожесть текстов. Для подсчета характеристик текстов в работе использованы методы математической статистики и машинного обучения.
- Предобработка текста
- Подсчет частотности
- Расчет статистических характеристик
- Растчет коэффициента семантической схожести текстов
- Корреляционный анализ
Запустите Оценка семантического сходства текстов.ipynb локально
- Клонируйте этот репозиторий, установите необходимые библиотеки и запускайте код в любой среде IDE с поддержкой ipynb
- Запустите, чтобы установить все необходимые библиотеки
pip install -r requirements.txt
- Откройте python notebook в IDE с поддержкой ipynb
Запустите main.exe локально
- Скачайте main.exe
- Запустите приложение с компьютера, на котором есть доступ в интернет
Загрузка приложения занимает около 10-20 секунд После загрузки пользователю открывается окно для ввода данных Пользователю необходимо выбрать файл произведения, язык на котором оно написано и год публикации
В поле выбора количества слов вводится количество, которое нужно для формирования списка топ самых популярных и самых непопулярных слов
Как выглядят поля выбора
Результаты выполнения программы