encoder几倍的下采样

Question

liziru opened this issue 2 months ago · 1 comments

感谢工作，想请问一下，encoder是几倍的下采样？

Answer 1 · 2024-09-06T06:14:32.000Z

感谢对该工作的关注。

举个例子，1秒的音频为16000帧数据，经过特征提取fbank变成了97帧，再进过lfr变成了15帧，然后送入encoder，encoder出来还是15帧，最后ctc输出为对应的15个logit，也就是约为66ms/per，这样算下来是下采样1000多倍了。

相比于whisper，1秒到音频whisper的encoder输出每秒50帧，sense voice比whisper还要进一步压缩3倍多