https://huggingface.co/datasets/AigizK/bashkir-russian-parallel-corpora
- Все корпусы собрал в один JSONL файл: ba_ru.jsonl
- All corpus was joined to one JSONL file: ba_ru.jsonl
Sample of one row:
{"ba": "535-тән ашыу скважина бырауланған.","ru": "Пробурено свыше 535 скважин.", "corpus": "bashkir encyclopedia"}
Переведено с русского на башкирский преподавательницей башкирского языка и литературы Кагармановой Сарией Мухамадьяновной. Рядом лежит исходный текст на английском
Башкирская энциклопедия
Новостной сайт
Книга Маленький принц
Эта папка содержит переведенные книги. Для того чтоб выровнять предложения сделано следующее:
- первый этап: с помощью инструмента https://github.com/averkij/lingtrain-aligner-editor автоматом выравниваем текст
- второй этап: полученный результат скармливаем телеграмм боту @bashkort_translate_bot. А энтузиаст, подписанные на этот бот, просматривают каждую пару и отмечают, насколько перевод корректный.