声纹识别文档

钟顺民 2023-09-18

这是一个声纹识别功能的项目。

我先后测试了SpeechBrain、PaddleSpeech和阿里的声纹识别模型，最终选用阿里3dSpeaker开源的声纹识别模型——ERes2Net。

但在测试的过程发现，背景噪音对声纹识别有巨大影响。

因此又测试并使用了SpeechBrain集成的声音增强（环境降噪）模型和CMGAN来对音频去背景音。

CMGAN效果实测优于SpeechBrain提供的两个语音增强模型。

添加仓库

git clone https://github.com/FLamefiREz/speaker-verification.git
cd speaker-verification

修改对应main函数中的变量即可

python verification.py

python CMGAN/inference.py

python verification_app.py

服务端口5052，也可以使用脚本启动，日志见log/。

服务接收参数可以是{"file_name":"文件名","file":文件字节}的形式，

也可以是{"file_name":"文件名","audio":文件base64}的形式。

返回参数：{"file_name":"文件名","tensor":音频特征向量list}

bash start.sh

服务单元测试

python app_test.py

其中，分别测试两种传参的方式，一种是文件传输，一种是文件转base64的传输方式。