Сложность школьных текстов на русском языке

Этот репозиторий содержит модель, предсказывающую уровень читабельности текста на русском языке.

Про модель

На текущий момент в репозитории доступна наша лучшая модель — ансамбль из 6 свёрточных сетей, обученных на эмбеддингах из предобученной модели, доступой тут: https://www.kaggle.com/tunguz/russian-glove. На последнем этапе предсказание ансамбля комбинируется с набором лингвистических признаков.

Про корпус

Модель обучена на корпусе текстов, собранном на основе рекомендаций Министерства просвещения. Тексты распределены по 3 классам: «начальная школа» (1-4 класс), «средняя школа» (5-9 класс), «старшая школа» (10-11 класс). Каждый из текстов корпуса разрезан на фрагменты по 70 предложений: с одной стороны, это увеличивает выборку, с другой — читабельность таких фрагментов незначительно отличается от читабельности текста целиком. Размер корпуса составил более 9 тысяч фрагментов.

Инструкция по запуску

Скачайте и распакуйте в predict/ файлы из этой папки: https://drive.google.com/drive/folders/1BwhG1_orhDDbDrCTvtPd09nzsJ7NctMM?usp=sharing
Скачайте модель эмбеддингов и разместите её predict/
Запустите run.sh для настройки окружения
Запустите readability.py при помощи созданного окружения (текст для оценки добавьте в test_text.txt)

DavydovichYana/books-n-kids

Сложность школьных текстов на русском языке

Про модель

Про корпус

Инструкция по запуску