/voicecomm

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

VOICECOMM это программа для эмуляции нажатия клавиш в играх голосовыми коммандами.

VOICECOMM принимает произнесенные голосом в микрофон команду, преобразует ее клавиатурное сокращение и отправляет его в игру - то есть виртуально нажимает клавиши в зависимости от голосовой команды.

Соответствие голосовых комманд и клавиатурных сокращений находится в файле key.csv. В этом файле 5 колонок разделенных символом точка с запятой - его можно открыть в LibreOffice или в любом текстовом редакторе.

Первые 4 колонки - это клавиатурное сокращение, пятая колонка - текстовое представление голосовой команды. В настоящем дистрибутиве находится файл с набором команд для игры ИЛ-2 Штурмовик БЗС.

Возьмем для примера вторую строку (первая строка служебная и ее не удаляем!) - при произнесении фразы "оставаться на месте" VOICECOMM передас в игру клавиатурное сокращение LEFT_CTRL + N0 (это обычная цифровая клавиша ноль).

Обратите внимание на голосовую команду "меню команд" (строка 32). Чуть ниже идет (срока 33) голосовая команда "меня команд" с таким же клавиатурным сочетанием GRAVE_ACCENT (это обычная тильда). Дело в том, что алгоритм иногда ошибается в распозновании и например вместо слова "меню" распознает как слово "меня".

Соответственно мы по результатам наблюдения за распознаванием добавляем вот эти вот ЧАСТЫЕ ошибки распознавания к набору команд.

Программа VOICECOMM состоит из 3х основных частей. За блок распознавания отвечает программа vosk, за блок передачи команд насистемном уровне - AutoHotPy + Interception.

Главный файл запуска run_voice.py связывает эти 3 блока и запускает процесс распознавания. Программа тестировалась на Windows 8 и Windows 11.

Для запуска программы нужно скачать и установить Python 64 bit - https://www.python.org/ftp/python/3.10.10/python-3.10.10-amd64.exe Внимание! При установке Python обязательно установите галочку Add Python to environment variables Затем откройте терминал и вставьте команду:

pip install vosk
pip install sounddevice

Скачайте данную программу с GitHub, распакуйте в любую папку. Внимание! В пути к папке с программами не должно быть кириллических или других нелатинских символов. Вообще старайтесь как можно ближе к корню диска распаковывать дистрибутив.

Откройте в папке терминал и перейдите в папку Interception\command line installer


cd Interception\command line installer

Запустите инсталятор драйвера виртуальной клавиатуры в терминале

install-interception.exe /install

ОБЯЗАТЕЛЬНО перегрузите комп после инсталяции Interception. В данном дистрибутиве уже установлена модель распознавания русского языка. Модели для других языков можно скачать на данной странице: https://alphacephei.com/vosk/models

Как правило существуют 2 модели языков - маленькая и полная. Я рекомендую использовать маленькую модель (small). Она занимает 50 Мб. Большая модель занимает 1,5 Гб - соотвественно занимается и больше оперативной памяти, а этого добра никогда много не бывает.

Для запуска программы откройте в папке программы терминал и запустите команду:

python ./run_voice.py