关于识别几秒时长的语音
xingjunhong opened this issue · 3 comments
xingjunhong commented
假设:有一段几秒的语音,其中有关键词在语音内,其余的都是杂音。
问题:如何找到关键词的开始位置和结束位置,并且将其识别?
majianjia commented
喂数据的时候是一帧一帧的滑动窗口,你可以结合vad来做起始和结束时间戳
xingjunhong commented
我看main_pc.c脚本,推理时,是每一秒都有一个推理结果,可以用这个结果来当做起始位置吗?
majianjia commented
取决于你用什么类型的模型,如果是RNN那种,是每十几毫秒就有一帧