Программа предназаначена для автоматического распознавания речи в аудио и видео записях. На 12.2021 подерживаются следующие типы файлов
- WAV
- MP3
- MP4
- AVI
- Linux on x86_64
- Linux on arm64
- OSX (only x86, not M1)
- Windows
- Raspbian on Raspberry Pi
При первом запуске инициализируйте закачку необходимых библиотек и моделей в вашу дальнейшую рабочую папку.
python3 model_prepare.py
Далее загрузите с сайта https://pytorch.org подходящую для вашего оборудования библиотеку torch.
Затем установите рекомендуемые библитеотеки.
pip3 install -r requirements.txt
На этом процесс установки завершается.
!Шаг установки проходится единожды при установке на новое оборудование!
!По умолчанию загружается англоязычная модель распознавания речи!
Для измениния языка и загрузки русской модели - измените параметр в файле model_prepare.py :
...
model_init('en')
...
поменяйте на ru
...
model_init('ru')
...
В корень вашей рабочей папки загрузите файл, который хотите распознать.
Пропишите в example.py в парамет file название вашего файла.
...
file='TheArchersOmnibus-20211107.mp3'
...
Запустите скрипт с примером.
python3 example.py
На выходе появится в корне папки файл txt с названием оригинального файла.
Пример содержания:
Предложения идут друг за другом. В конце каждого стоит точка. Деление на абзаци нету. Знаки препинания это точка и запятая. В английском языке так же ставится апостроф.
Используемые в процессе разработки крупные библиотеки:
- vosk - https://alphacephei.com/vosk/
- torch - https://pytorch.org
- pydub
- youtube_dl
- noisereduce
Большинство библиотек можно закачать с pip, остальные взяты с иных источников и так же открытых ресурсов GitHub.