lovemefan/SenseVoice.cpp

encoder几倍的下采样

liziru opened this issue · 1 comments

感谢工作,想请问一下,encoder是几倍的下采样?

感谢对该工作的关注。

举个例子,1秒的音频为16000帧数据,经过特征提取fbank变成了97帧,再进过lfr变成了15帧,然后送入encoder,encoder出来还是15帧,最后ctc输出为对应的15个logit,也就是约为66ms/per, 这样算下来是下采样1000多倍了。

相比于whisper,1秒到音频whisper的encoder输出每秒50帧,sense voice比whisper还要进一步压缩3倍多