lturing/tacotronv2_wavernn_chinese

tacotron_synthesize.py 生成梅尔频谱需要两秒到三秒,请问Tacotron2是不是比较慢,还是其他调参的原因?

443127316 opened this issue · 1 comments

首先感谢老师分享这么好的项目,我在运行adaptive分支的时候,采用了项目提供的预训练模型进行微调训练,微调数据分别测试aishell3和magic data以及 D8,在执行tacotron_synthesize.py的时候,使用V100 GPU 单卡,生成梅尔频谱耗时 3秒,经过Griffin声码器耗时6秒(如果改用waveRNN耗时9秒),问题如下:

1.Tacotron2是否本身就这么慢,可能让整个链路调整到500ms以内吗?
2.如果想要优化速度的话,要从什么方向入手。

再次感谢老师的帮助。

您好,感谢您的关注。
tacotron是自回归模型,推荐你使用非回归模型,例如fastspeech

https://github.com/ranchlai/mandarin-tts
https://github.com/NVIDIA/mellotron
https://github.com/NVIDIA/NeMo/tree/main/examples/tts
推荐你试试上面的。
另外,我之前试过用多人数据集(40多人,一共4w句)训练fastspeech2,在adaptive时候,只需10句就能很好的克隆音色。