/shershe

Speech recognition dataset based on russian audiobook, sentance-level split

Primary LanguagePythonMIT LicenseMIT

Разметка аудиокниги Николая Старикова "Шерше ля нефть" в озвучке Эндшпиля

Набор данных для машинного обучения распознаванию речи.

Аудиопоток разбвается на окна в 10 мс. Частота дискретизации книги 44100 Гц, то есть одно окно - 441 значений.

Главы разбиты на уровне предложений. Разбивка приведена в поле data(остальные поля не нужны) списками из 3х значений:

  • номер первого окна в предложении (с отступом),
  • номер последнего окна в предложении (с отступом),
  • строка целевых меток. Один символ строки - одна фонема. Прописными буквами обозначены мягкие согласные (сь, ть, пь...), строчными твёрдые. Цифрами обозначены шипящие: 1=ч, 2=ш, 3=ж, 4=щ. Пробелы опущены.

В каталоге scripts мои скрипты для разбивки аудиокниг