shershe: A Python repository from ainy

Набор данных для машинного обучения распознаванию речи.

Аудиопоток разбвается на окна в 10 мс. Частота дискретизации книги 44100 Гц, то есть одно окно - 441 значений.

Главы разбиты на уровне предложений. Разбивка приведена в поле data(остальные поля не нужны) списками из 3х значений:

номер первого окна в предложении (с отступом),
номер последнего окна в предложении (с отступом),
строка целевых меток. Один символ строки - одна фонема. Прописными буквами обозначены мягкие согласные (сь, ть, пь...), строчными твёрдые. Цифрами обозначены шипящие: 1=ч, 2=ш, 3=ж, 4=щ. Пробелы опущены.

В каталоге scripts мои скрипты для разбивки аудиокниг

ainy/shershe