Проект speech_scriber
предназначен для распознавания аудиозаписей диалогов из mp3 файлов и проведения диаризации. Для распознавания речи используется библиотека openai-whisper
, а для диаризации - pyannote-audio
. Веб-интерфейс реализован с использованием streamlit
.
Для управления зависимостями и виртуальной средой используется Poetry
. Установите его, следуя официальной документации: Poetry Installation.
Клонируйте репозиторий проекта на ваш локальный компьютер:
git clone https://github.com/kolommik/speech_scriber.git
cd speech_scriber
Установите все зависимости, указанные в pyproject.toml, с помощью команды:
poetry install
По умолчанию Poetry установит версию torch для CPU. Для использования GPU необходимо вручную установить соответствующую версию torch.
nvcc --version
Посмотреть статус GPU устройств
nvidia-smi
Выберите команду в зависимости от вашей видеокарты:
poetry run pip install torch==2.3.1+cu117 -f https://download.pytorch.org/whl/torch_stable.html
poetry run pip install torch==2.3.1+cu118 -f https://download.pytorch.org/whl/torch_stable.html
poetry run pip install torch==2.3.1+cu121 -f https://download.pytorch.org/whl/torch_stable.html
Выбираем с сайта [https://pytorch.org/get-started/locally/] конфигурацию для установки PyTorch.
poetry run python app\check_cuda.py
Если версия CUDA установлена, то выдаст сообщение со списком CUDA видеокарт.
Для запуска веб-интерфейса выполните следующую команду:
poetry run streamlit run app/main.py