Этот репозиторий содержит модель, предсказывающую уровень читабельности текста на русском языке.
На текущий момент в репозитории доступна наша лучшая модель — ансамбль из 6 свёрточных сетей, обученных на эмбеддингах из предобученной модели, доступой тут: https://www.kaggle.com/tunguz/russian-glove. На последнем этапе предсказание ансамбля комбинируется с набором лингвистических признаков.
Модель обучена на корпусе текстов, собранном на основе рекомендаций Министерства просвещения. Тексты распределены по 3 классам: «начальная школа» (1-4 класс), «средняя школа» (5-9 класс), «старшая школа» (10-11 класс). Каждый из текстов корпуса разрезан на фрагменты по 70 предложений: с одной стороны, это увеличивает выборку, с другой — читабельность таких фрагментов незначительно отличается от читабельности текста целиком. Размер корпуса составил более 9 тысяч фрагментов.
- Скачайте и распакуйте в predict/ файлы из этой папки: https://drive.google.com/drive/folders/1BwhG1_orhDDbDrCTvtPd09nzsJ7NctMM?usp=sharing
- Скачайте модель эмбеддингов и разместите её predict/
- Запустите run.sh для настройки окружения
- Запустите readability.py при помощи созданного окружения (текст для оценки добавьте в test_text.txt)