/books-n-kids

Readability model for Russian (based on convolutional NN)

Primary LanguagePythonMIT LicenseMIT

Сложность школьных текстов на русском языке

Этот репозиторий содержит модель, предсказывающую уровень читабельности текста на русском языке.

Про модель

На текущий момент в репозитории доступна наша лучшая модель — ансамбль из 6 свёрточных сетей, обученных на эмбеддингах из предобученной модели, доступой тут: https://www.kaggle.com/tunguz/russian-glove. На последнем этапе предсказание ансамбля комбинируется с набором лингвистических признаков.

Про корпус

Модель обучена на корпусе текстов, собранном на основе рекомендаций Министерства просвещения. Тексты распределены по 3 классам: «начальная школа» (1-4 класс), «средняя школа» (5-9 класс), «старшая школа» (10-11 класс). Каждый из текстов корпуса разрезан на фрагменты по 70 предложений: с одной стороны, это увеличивает выборку, с другой — читабельность таких фрагментов незначительно отличается от читабельности текста целиком. Размер корпуса составил более 9 тысяч фрагментов.

Инструкция по запуску

  • Скачайте и распакуйте в predict/ файлы из этой папки: https://drive.google.com/drive/folders/1BwhG1_orhDDbDrCTvtPd09nzsJ7NctMM?usp=sharing
  • Скачайте модель эмбеддингов и разместите её predict/
  • Запустите run.sh для настройки окружения
  • Запустите readability.py при помощи созданного окружения (текст для оценки добавьте в test_text.txt)