Audio.Speech2Text.Vosk1

Version 2021

Программа предназаначена для автоматического распознавания речи в аудио и видео записях. На 12.2021 подерживаются следующие типы файлов

Установка

Поддерживаемые платформы:

Linux on x86_64
Linux on arm64
OSX (only x86, not M1)
Windows
Raspbian on Raspberry Pi

При первом запуске инициализируйте закачку необходимых библиотек и моделей в вашу дальнейшую рабочую папку.

python3 model_prepare.py

Далее загрузите с сайта https://pytorch.org подходящую для вашего оборудования библиотеку torch.

Затем установите рекомендуемые библитеотеки.

pip3 install -r requirements.txt

На этом процесс установки завершается.

Внимание!:

!Шаг установки проходится единожды при установке на новое оборудование!

!По умолчанию загружается англоязычная модель распознавания речи!

Для измениния языка и загрузки русской модели - измените параметр в файле model_prepare.py :

...
model_init('en')
...

поменяйте на ru

...
model_init('ru')
...

Пример

В корень вашей рабочей папки загрузите файл, который хотите распознать.

Пропишите в example.py в парамет file название вашего файла.

...
file='TheArchersOmnibus-20211107.mp3'
...

Запустите скрипт с примером.

python3 example.py

На выходе появится в корне папки файл txt с названием оригинального файла.

Пример содержания:

Предложения идут друг за другом. В конце каждого стоит точка. Деление на абзаци нету. Знаки препинания это точка и запятая. В английском языке так же ставится апостроф.

Библиотеки

Используемые в процессе разработки крупные библиотеки:

vosk - https://alphacephei.com/vosk/
torch - https://pytorch.org
pydub
youtube_dl
noisereduce

Большинство библиотек можно закачать с pip, остальные взяты с иных источников и так же открытых ресурсов GitHub.