На русском ниже/In Russian below
RuAdapt is a parallel dataset in which target texts are simplified versions of the source texts. It is suitable for automatic text simplification as well as for studying how human experts simplify texts.
RuAdapt consists of texts adapted for learners of Russian as a Foreign Language and their original versions. Most of the materials are from adapted Russian literature books kindly provided by the Zlatoust publishing house (see Adapted_literature). Some of the texts are encyclopedic entries written and adapted by researchers from the Pushkin State Russian Language Institute (see Encyclopedic), and a small part is composed of Russian fairytales adapted by recearchers from the Moscow State University (see Fairytales).
RuAdapt has paragraph and sentence level alignments. The original and adapted texts were aligned automatically. We used two aligners: Bleualign (https://github.com/rsennrich/Bleualign) and CATS (https://github.com/neosyon/SimpTextAlign). Both versions can be found in the repository. For CATS, we also preserved the cousine similarity scores for each paragraph pair.
There is a level specified for each paragraph or sentence pair. This is the level of Russian language acquisition for which the target paragraph has been adapted. For some pairs, only an approximate level (like B1-B2) is specified. The exact proportions of the adapted texts for each level are given in the descriptions of the subcorpora.
Dmitrieva, A., Laposhina, A., & Lebedeva, M. (2021, June). A quantitative study of simplification strategies in adapted texts for L2 learners of Russian. In Proceedings of the International Conference "Dialogue" (pp. 191-203). URL: http://www.dialog-21.ru/media/5504/dmitrievaapluslaposhinaapluslebedevam099.pdf
Dmitrieva, A., & Tiedemann, J. (2021, April). Creating an Aligned Russian Text Simplification Dataset from Language Learner Data. In Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing (pp. 73-79). URL: https://www.aclweb.org/anthology/2021.bsnlp-1.8/
Subcorpus / Подкорпус | Texts / Тексты | Original tokens / Токены в исходных текстах | Adapted tokens / Токены в адаптированных текстах | Paragraphs / Параграфы |
---|---|---|---|---|
Adapted literature | 93 | 620563 | 287358 | 7614 |
Encyclopedic texts | 355 | 207252 | 144378 | 3517 |
Fairytales | 9 | 7093 | 4652 | 134 |
Subcorpus / Подкорпус | Texts / Тексты | Original tokens / Токены в исходных текстах | Adapted tokens / Токены в адаптированных текстах | Sentences / Предложения |
---|---|---|---|---|
Adapted literature | 93 | 376432 | 285190 | 24232 |
Encyclopedic texts | 355 | 161954 | 144250 | 10271 |
Fairytales | 9 | 5775 | 4642 | 416 |
More detailed statistics can be found on the subcorpora pages / С более подробной статистикой можно ознакомиться на страницах подкорпусов.
RuAdapt — это параллельный датасет, в котором результирующие (target) тексты являются упрощенными версиями исходных (source) текстов. Он подходит для автоматического упрощения текста, а также для изучения того, как специалисты упрощают тексты.
RuAdapt состоит из текстов, адаптированных для изучающих русский язык как иностранный, и их оригинальных версий. Большинство материалов взяты из адаптированной литературы, любезно предоставленной издательством "Златоуст" (см. Adapted_literature). Некоторые тексты представляют собой энциклопедические статьи, написанные и адаптированные исследователями из ГосИРЯ имени Пушкина (см. Encyclopedic), а небольшая часть состоит из русских сказок, адаптированных исследователями из Московского государственного университета (см. Fairytales).
RuAdapt выравнен на уровне параграфов и предложений. Оригинальные и адаптированные тексты были выравнены автоматически. Мы использовали два элайнера: Bleualign (https://github.com/rsennrich/Bleualign) и CATS (https://github.com/neosyon/SimpTextAlign). Обе версии можно найти в репозитории. Для CATS мы также сохранили значения косинусного подобия для каждой пары абзацев.
Для каждой пары параграфов или предложений указан уровень. Это уровень владения русским как иностранным, для которого был адаптирован результирующий абзац. Для некоторых пар указан только приблизительный уровень (например, B1-B2). Точные пропорции адаптированных текстов для каждого уровня указаны в описаниях к подкорпусам.
Dmitrieva, A., Laposhina, A., & Lebedeva, M. (2021, June). A quantitative study of simplification strategies in adapted texts for L2 learners of Russian. In Proceedings of the International Conference "Dialogue" (pp. 191-203). URL: http://www.dialog-21.ru/media/5504/dmitrievaapluslaposhinaapluslebedevam099.pdf
Dmitrieva, A., & Tiedemann, J. (2021, April). Creating an Aligned Russian Text Simplification Dataset from Language Learner Data. In Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing (pp. 73-79). URL: https://www.aclweb.org/anthology/2021.bsnlp-1.8/