wenet-e2e/wekws

怎么获得自定义“关键词”识别模型?

BarryKCL opened this issue · 13 comments

我用TTS(100个发音人左右)生成自己的“关键词”数据,训练之后发现效果不太好。

你说的关键词是指热词吗?

如果是热词,可以参考WFST的方案 https://mp.weixin.qq.com/s/5FLXU-jUjUVcpXtQaJbhfA

如果是命令词这种,建议自己用手机实际录制一些

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

可以试一下,直觉上我认为最终的效果跟你用的开源数据集有很大关系。数据越多并且关键词种类越多最终 finetune 的效果应该会越好

请问noise_lmdb文件要怎么获取?

请问noise_lmdb文件要怎么获取?

请问noise_lmdb文件要怎么获取?

duj12 commented

Maybe you can try this PR. #135

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

你好,请问你用的是什么TTS工具?

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

你好,请问你用的是什么TTS工具?
调的百度,讯飞,腾讯的语音合成接口合成的

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

你好,请问你用的是什么TTS工具?
调的百度,讯飞,腾讯的语音合成接口合成的

用不同接口的TTS交叉验证结果不太好吗?还是用麦克风出来的效果一般?

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

你好,请问你用的是什么TTS工具?
调的百度,讯飞,腾讯的语音合成接口合成的

用不同接口的TTS交叉验证结果不太好吗?还是用麦克风出来的效果一般?

训练完实际测试的时候唤醒率不高,五成左右吧,合成的还是和真人语音频谱有区别。

再训练好的开源数据集模型上,添加TTS造的"唤醒词"以及少量录制的数据,fineturn得到自定义的唤醒词模型,这个方案可行吗?

你尝试的效果怎么样,我用tts生成的关键词音频效果不太好

你好,请问你用的是什么TTS工具?
调的百度,讯飞,腾讯的语音合成接口合成的

用不同接口的TTS交叉验证结果不太好吗?还是用麦克风出来的效果一般?

训练完实际测试的时候唤醒率不高,五成左右吧,合成的还是和真人语音频谱有区别。

ok