Модуль естественно-языкового речевого интерфейса для системы перевода текста. Производит распознавание слов на различных естественных языках, при условии того, что система не знает заранее, к какому естественному языку относится речь.
Модуль умеет переводить естественную речь в текст, и определять к какому языку, она относится. Данные процессы выполняются со скоростью близкому к реальному времени, модуль теоретически не имеет ограничений на количество распознаваемых языков. Поддерживает аудио-файлы различных форматов, может работать с микрофоном.
Работает на основе отдельно обученных для каждого языка моделей XLSR. За обученные сети выражаю благодарность пользователю Jonatas Grosman. На данный момент протестировано два языка:
- Английский;
- Русский.
Для работы нужны:
- PyAudio
- Ffmpeg