video-recognizer: A Python repository from myxomor

Реализованная функциональность

test.py - Исполняемый файл системы распознавания.
Принимает на вход видео в популярных форматах MP4, MOV, AVI, Y4M, MKV
После обраболтки создаёт JSON файл с таким же именем, как у видеофайла, в котором содержится распознанный текст, ключевые слова, упоминания людей, мест, организаций

Особенность проекта в следующем:

Качественный разбор звука текста
Выделение имен людей, названий городов и организаций
Возможность обрабатывать видео многопоточно, передавая список файлов в multi.py
Нам очень интересно его развивать))

Основной стек технологий:

Python
Vosk
KaldiRecognizer
SpaCy
ffmpeg
OpenCV

Демо

Демо доступно только для локального развертывания на машине

СРЕДА ЗАПУСКА

использование утилиты производится на Windows;
требуется установленный Python 3.8.9;

Возможно дальнейшее использование на Linux

УСТАНОВКА

Установка пакетов для Python

Лучше если установка будет производиться в virtualenv

Выполните

pip3 install vosk
pip3 install spacy
python -m spacy download ru_core_news_lg

Установка и скачивание дополнительных пакетов

Необходимо установить ffmpeg и добавить исполняемые файлы в переменную окружения PATH

Для Vosk необходимо скачать русскую языковую модель по адресу https://alphacephei.com/vosk/models/vosk-model-ru-0.22.zip Далее архив с моделью нужно распаковать рядом с файлом test.py чтобы получить такую структуру файлов

keywords.py
test.py
model/
...

Способ использования

Скачайте репозиторий и модель

Установите зависимости и распакуйте модель по иструкции

Обрабатываемое видео разместите рядом с файлом test.py

Для обработки запустите следующую команду:

python test.py *ваше_имя_файла*.mp4
...

После обработки в папке создатся файл ваше_имя_файла.mp4.json В нем будут распознанные полный текст, ключевые слова, названия регионов, организаций и имена людей в разделах: text, keywords, persons, locations, organizations

РАЗРАБОТЧИКИ

myxomor/video-recognizer