/frequency_detector

Detect frequency of lemmas in the given Russian text.

Primary LanguagePython

УСТАНОВКА

Для запуска программы необходим Python 2.7, модуль pymorphy2.
Скачать Python: https://www.python.org/downloads/release/python-2710/

Для установки pymorphy2 необходимо установить pip:
1. Скачать эту программу https://bootstrap.pypa.io/get-pip.py
2. В командной строке ввести: python get-pip.py

Установка pymorphy2:
В командной строке ввести: pip install pymorphy2

ВАЖНО: вместо указанных команд Вам, возможно, придется вводить абсолютные пути к файлам;
например, в Windows Вы, скорее всего, будете вводить команды так:

C:\Python27\python.exe <полный путь до файла get-pip.py>

C:\Python27\Scripts\pip.exe install pymorphy 2




ВЕРСИИ ПРОГРАММЫ

У программы есть две версии.

Версия 1: Если в тексте встречаются омонимичные лексемы, то программа просто подсчитает общее количество вхождений этой лексемы и впишет в таблицу несколько одинаковых строк, где будут различаться только поля POS и Частотность.

Версия 2: В ходе программы пользователю будет предложено вручную снять омонимию для каждого вхождения омонимичной лексемы в тексте.

Например, на экране может появиться такое предложение:
Is до in the sentence "дела до того, что у нее не найдется читателей." pr? [y/n]

Если "до" является предлогом, нужно ввести y, если нет -- n. 
В этом случае мы введем y, программа выдаст OK и продолжит работу. Если бы мы ввели n, то программа продолжила бы нам предлагать возможные части речи до тех пор, пока бы мы не ввели y.

На выходе в таблице будут разные значения в поле Количество вхождений для омонимичных лексем.



ЗАПУСК

Для запуска программы введите в командную строку:
<путь до python.exe> <путь к программе freq_detector.py> <путь к файлу словаря freqrnc2011.csv> <путь к входному файлу с текстом> <путь к выходной таблице> <номер версии 1 или 2>

На выходе программа формирует таблицу со столбцами:
Лемма   Количество вхождений    POS     Частотность

Примеры использования:

python freq_detector.py freqrnc2011.csv input_file.txt output_table.csv 1

C:\Python27\python.exe freq_detector.py freqrnc2011.csv input_file.txt output_table.csv 1

Программа автоматически создаст выходную таблицу, создавать ее заранее не нужно.