chenmingxiang110/Chinese-automatic-speech-recognition

使用其他语料库测试的CER 过高

Zepan opened this issue · 5 comments

Zepan commented

你好,刚随手使用ths30语料库的第一条语料测试,声学模型(即拼音结果)的CER有30%左右

原文:
lv_shi_yang_chun_yan_jing_da_kuai_wen_zhang_di_di_se_si_yve_de_lin_luan_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_ang_ran
识别结果
lv_shen_yang_che_ye_jie_da_po_wen_zhang_de_di_se_si_yue_de_li_lun_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_er_ran

但是正常最简单的CNN+CTC模型仅使用aishell训练(双卡1080Ti 2小时),使用ths30验证,CER也可以到20%
本项目模型泛化性似乎有问题?
按照deep speech的宣传资料,应该base line就是CER 10%起跳的?

Zepan commented

从以下语料库的测试集随机抽50条wav测试的CER结果:
ai shell : 0.0216
thchs30 : 0.2294
prime : 0.1748
stcmd : 0.2399
tang : 0.1657

发现对于aishell语料库拟合很好,对于其它的通用语料库,有平均20%的CER,相当于10倍的训练语料库的错误率

谢谢,我之前确实有考虑过这个问题所以加入了youtube的数据以及各种噪声。但从你的测试来看,模型确实有过拟合的可能。我暂时能想到的原因大概是我的增广做的不足,regularization项做的不好,或者训练时间过长导致的过拟合。非常感谢你提供的测试结果,最近工作之余我会考虑你的建议并对模型进行一些修改。

Zepan commented

大佬有什么即时通信联系方式吗?我最近也在调语音相关的,不过是端侧的,
1MB 大小模型,在aishell上达到9.7% CER,thchs20上达到18.4% CER,正在思考怎么优化,使得CER全部降至10%以内
如果有人交流会更有灵感些
发了同内容邮件到你邮箱,方便的话互相交流下

我的邮箱是chenmingxiang110@gmail.com,邮件联系我一下,我给你邮箱发我的微信吧

那我们私下联系,这个issue就先close了哈