ranchlai/mandarin-tts

自己的数据,训练效果不理想

LinJinghuidev opened this issue · 2 comments

拿aishell3的数据集训练,loss下降的很快,模型run2000轮就能输出较为清晰的语音。用自己收集来的语音去训练,收敛很慢且输出结果不太理想。
自己的数据频谱清晰无杂音,不是很明白为什么效果和aishell差这么多,请指教

没看出来aishell3有啥和我的音频差距大的地方,实验了四天还是搞不懂。没办法只能转tensorflow-tts了。

两个建议可以试试

  1. 确认下有没有对齐,主要是duration.
  2. 从AIshell3 finetune过来,或者合在一起,添加一个新ID