pengzhendong/streaming-sensevoice

8000HZ PCM音频流VAD返回开启和关闭

Opened this issue · 3 comments

我尝试将 VADIterator 的 sample_rate 采样率修改为8000HZ。
频繁出现下面日志:
2024-11-10 15:48:27.574 | DEBUG | main:websocket_endpoint:204 - 0: VAD start: 0.316
2024-11-10 15:48:36.579 | DEBUG | main:websocket_endpoint:250 - 0: VAD end: 4.132
No Speech
2024-11-10 15:48:38.300 | DEBUG | main:websocket_endpoint:204 - 0: VAD start: 5.34
2024-11-10 15:48:49.854 | DEBUG | main:websocket_endpoint:246 - 1: VAD end: 10.34
找人工
[420, 540, 720]
2024-11-10 15:48:50.498 | DEBUG | main:websocket_endpoint:204 - 1: VAD start: 11.004
2024-11-10 15:49:04.271 | DEBUG | main:websocket_endpoint:250 - 1: VAD end: 16.932

大致的示例代码如下:
image

请你详细描述你的目的、你做的修改、你期望达到的结果、你使用的测试数据、具体的日志;从你的描述中根本看不明白你想干什么,这样没人能帮到你。另外,不要修改采样率,若期望降低流量消耗,请修改比特率。

请你详细描述你的目的、你做的修改、你期望达到的结果、你使用的测试数据、具体的日志;从你的描述中根本看不明白你想干什么,这样没人能帮到你。另外,不要修改采样率,若期望降低流量消耗,请修改比特率。

您好,我尝试让websocket服务端识别16-bit, 8kHz, mono PCM (little-endian) 的音频流,但无法正确识别,源码部分我只将采样率调整为8000HZ,pcm音频文件已通过附件上传。

pcm音频文件.zip

你的音频文件本身就特别模糊,1s-4s 、 10s-11s 之间是噪声,6.5s-7.5s 之间 转人工 可以试着调一下热词,但是我认为效果可能不佳。