使用其他语料库测试的CER 过高

Question

使用其他语料库测试的CER 过高

Zepan opened this issue 4 years ago · 5 comments

你好，刚随手使用ths30语料库的第一条语料测试，声学模型（即拼音结果）的CER有30%左右

原文：
lv_shi_yang_chun_yan_jing_da_kuai_wen_zhang_di_di_se_si_yve_de_lin_luan_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_ang_ran
识别结果
lv_shen_yang_che_ye_jie_da_po_wen_zhang_de_di_se_si_yue_de_li_lun_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_er_ran

但是正常最简单的CNN+CTC模型仅使用aishell训练（双卡1080Ti 2小时），使用ths30验证，CER也可以到20%
本项目模型泛化性似乎有问题？
按照deep speech的宣传资料，应该base line就是CER 10%起跳的？

Answer 1 · 2020-06-28T06:49:31.000Z

从以下语料库的测试集随机抽50条wav测试的CER结果：
ai shell ： 0.0216
thchs30 : 0.2294
prime : 0.1748
stcmd : 0.2399
tang : 0.1657

发现对于aishell语料库拟合很好，对于其它的通用语料库，有平均20%的CER，相当于10倍的训练语料库的错误率

Answer 2 · 2020-06-28T06:57:23.000Z

谢谢，我之前确实有考虑过这个问题所以加入了youtube的数据以及各种噪声。但从你的测试来看，模型确实有过拟合的可能。我暂时能想到的原因大概是我的增广做的不足，regularization项做的不好，或者训练时间过长导致的过拟合。非常感谢你提供的测试结果，最近工作之余我会考虑你的建议并对模型进行一些修改。

Answer 3 · 2020-06-28T07:11:50.000Z

大佬有什么即时通信联系方式吗？我最近也在调语音相关的，不过是端侧的，
1MB 大小模型，在aishell上达到9.7% CER，thchs20上达到18.4% CER，正在思考怎么优化，使得CER全部降至10%以内
如果有人交流会更有灵感些
发了同内容邮件到你邮箱，方便的话互相交流下

Answer 4 · 2020-06-28T07:16:01.000Z

我的邮箱是chenmingxiang110@gmail.com，邮件联系我一下，我给你邮箱发我的微信吧

Answer 5 · 2020-06-28T07:18:47.000Z

那我们私下联系，这个issue就先close了哈