VAD效果很差，是使用问题？

Question

VAD效果很差，是使用问题？

Closed this issue 2 months ago · 2 comments

Notice: In order to resolve issues more efficiently, please raise issue following the template.
（注意：为了更加高效率解决您遇到的问题，请按照模板提问，补充细节）

❓ Questions and Help

下面的音频wav文件，说话片段和静音片段十分清晰，但实际VAD的效果有如下问题：

1、怎么VAD的结果，片段的 start_time 和上个片段的 end_time是紧挨着的；
2、图中 15305 的时间点不准，明显在语音内容上；

a.wav.zip

{
"duration": 14125,
"start": 1180,
"end": 15305,
"text": "英国工厂纺织工十八世纪下半叶产业革命。首先#从西欧的纺织业开始，机器的发明，使工人从手工劳动中初步的解脱出来，"
},
{
"duration": 14845,
"start": 15305,
"end": 30150,
"text": "为利用动力驱动的集中型大工业生产方式准备了条件。图为采用固定纺锤的纺织作纺，当时的纺织机不仅需要二至三人操作，"
},
{
"duration": 14020,
"start": 30150,
"end": 44170,
"text": "而且效率低下贪婪的收税官 publcan 一词源于古希腊语，其原意是效劳，后来演化为收税人、"
},
{
"duration": 13250,
"start": 44170,
"end": 57420,
"text": "酒店老板等意思，在古希腊早期，税收原本是对付出劳动者的奖赏到古罗马时期，收税人被执政官统一任命，"
},

Answer 1 · 2024-11-20T07:23:53.000Z

请通过阿里钉联系蚂蚁集团乐天

Answer 2 · 2024-11-20T07:53:46.000Z

一般来说，vad切割音频时间戳与实际音频对不上，都是采样率原因，模型是按照16000采样率给的时间戳，需要你换成成你音频采样率的