majianjia/nnom

关于识别几秒时长的语音

xingjunhong opened this issue · 3 comments

假设:有一段几秒的语音,其中有关键词在语音内,其余的都是杂音。
问题:如何找到关键词的开始位置和结束位置,并且将其识别?

喂数据的时候是一帧一帧的滑动窗口,你可以结合vad来做起始和结束时间戳

我看main_pc.c脚本,推理时,是每一秒都有一个推理结果,可以用这个结果来当做起始位置吗?

取决于你用什么类型的模型,如果是RNN那种,是每十几毫秒就有一帧