preprocessing

Скрипты для обработки коллекции ММРО.

tex2json.py

Скрипт делает следующее:

Выделяет из *.tex заголовок и автора статьи, а также текст между \maketitle и библиографией.
Очищает текст от элементов LaTeX с помощью detex.
Находит для всех слов начальную форму и часть речи с помощью Mystem (с контекстным снятием омонимии).
Разбивает текст на абзацы.
Разбивает абзацы на предложения с помощью обученного на русских фразах PunktSentenceTokenizer из NLTK.
Собирает всё в JSON-файл следующего формата:

В файле содержится единственный документ.
Документ – объект с полями title, author и text.
В title и author находятся строки с заголовком и автором (авторами) статьи, в text находится массив абзацев.
Абзац – массив предложений.
Предложение – массив слов.
Слово – объект с обязательным полем raw и опциональными полями lex и pos.
В raw находится фрагмент исходного документа: слово или символы между слов; в lex находится исходная форма слова; в pos находится метка части речи в формате, используемом в Mystem.

Для корректной работы в папке со скриптом должны лежать:

Mystem (нужна версия 3.0)
Файл russian.pickle

Также должен быть установлен detex (входит в пакет texlive-extra-utils в Ubuntu).

Пример вызова

python3 tex2json.py tests/*.tex # создаст для каждого файла *.tex файл *.tex.json

json2vpwb.py

Преобразует набор документов в JSON-формате в коллекцию в формате Vowpal Wabbit.

Пример вызова

python3 json2vpwb.py tests/*.json collection.vpwb # создаст коллекцию collection.vpwb в текущей папке.

json2txt.py

Преобразует документ в JSON-формате в текстовый документ без разметки, где каждое предложение начинается с новой строки, а абзацы разделяются пустыми строками. Удобно для отладки.

Пример вызова

python3 json2txt.py tests/*.json collection.vpwb # создаст для каждого файла *.json файл *.json.txt

Полезные ссылки

Коллекция ММРО (UTF-8, юниксовые переводы строк)

Файлы JSON, полученные с помощью текущей версии из ММРО

nkruglikov/preprocessing

preprocessing

tex2json.py

Пример вызова

json2vpwb.py

Пример вызова

json2txt.py

Пример вызова

Полезные ссылки