关于add_blank和use_sdp

Question

关于add_blank和use_sdp

Closed this issue 2 years ago · 21 comments

谢谢作者的分享，vits里默认add_blank和use_sdp都是true，这两个参数对模型具体有什么影响呢。我没改参数，合成效果有时候停顿比较奇怪。不知道改这两个参数能不能改善。下面的是我合成出来的效果『且我们对这些语言的掌握程度都达到比较高的水平时』
40414717-1863-41bd-836e-503fdfb22afd.wav.zip

Answer 1 · 2021-09-28T03:26:25.000Z

你的效果很好啊，add_blank是【必须】的，他的作用是添加音素边界，因为我在标注里面【也】做了这个，和原作者的add_blank【重复】了；use_sdp是为了解决同一个音素不同时长的问题，关闭的话应该出现预测的音素平均时长

Answer 2 · 2021-09-28T03:28:58.000Z

此外，目前没有使用韵律预测，出现停顿算正常现象，没使用韵律预测需要更多的语料进行训练来解决奇怪的停顿

Answer 3 · 2021-09-28T03:29:34.000Z

你用的什么显卡训练的呢，怎么这么快

Answer 4 · 2021-09-28T03:32:24.000Z

请问您有计划加入韵律预测吗？我是8张v100，所以速度比较快。另外，我是用的vits的原始代码训练的中英混杂tts. 『Hello, 我是AI助手，很高兴认识你，nice to meet you.』
d677b364-84ab-44e4-8c18-80515809aa78.wav.zip

Answer 5 · 2021-09-28T03:35:54.000Z

韵律预测比较难，做的不好反而会恶化；我也算新手，在探索中；你的中英混合数据是：baker+lj吗？

Answer 6 · 2021-09-28T03:37:03.000Z

baker libritts aishell3还有些自己的数据，中文数据不好弄，你有中文男声数据么

Answer 7 · 2021-09-28T04:33:25.000Z

你是那些是准备做克隆吗？

Answer 8 · 2021-09-28T09:03:31.000Z

不是，克隆及更难做了

Answer 9 · 2021-09-28T09:49:59.000Z

请问这个，https://github.com/jaywalnut310/vits/issues/2#issuecomment-927247193，是训练了多少步的结果，听着停顿很自然呢

Answer 10 · 2021-09-28T09:50:34.000Z

都是用的默认设置吗，有没有修改什么设置

Answer 11 · 2021-09-28T09:53:11.000Z

不是vits的默认设置，是configs/baker_base.json里面的设置，1080双卡，训练两天的结果

Answer 12 · 2021-09-28T09:59:37.000Z

谢谢，看了下配置文件，除了采样率，好像没什么变化。对停顿不自然的情况，您有什么建议吗

Answer 13 · 2021-09-28T10:03:41.000Z

我把add_blank设置成False了，不知道你的0对应的是什么音素，如果0对应音频的开始静音端，使用add_blank就有问题，中文里面静音段和音素边界不能共用id

Answer 14 · 2021-09-28T10:11:13.000Z

好的，我试试看哈，多谢您的建议

Answer 15 · 2022-03-07T01:56:44.000Z

请问中文，大家有用真实的时间戳进行训练的吗, 类似Fastspeech1，2那种。我实验了一下，训练，loss都是正常的，也可以合成音频，音频质量ok，大体发音都是好的，也还是有发音错误，集中在零声母的一些发音上。请问大家有做过类似的试验吗，有什么经验分享吗？

Answer 16 · 2022-03-07T02:39:02.000Z

有具体的错误音频吗？我看看我的模型有没有这样的问题。

Answer 17 · 2022-03-07T02:51:39.000Z

@dtx525942103 抱歉我这边无法上传音频，就是比如“我”“云”“应”“语音”“应用”这种发音不准

Answer 18 · 2022-03-07T05:24:03.000Z

VITS的建模能力很强，因此对对齐错误以及标注错误十分敏感。

Answer 19 · 2022-03-07T06:42:18.000Z

@dtx525942103 可能真是这样，训了几个真实duration的模型，就像Fastspeech1，2那样，都有发音不准确的情况。你这边训练成功没有？

Answer 20 · 2022-03-07T06:59:34.000Z

我用的VITS的MAS对齐，那些生僻发音（训练集中出现次数少）会发音错误

Answer 21 · 2022-03-07T07:00:23.000Z

@dtx525942103 好的明白了多谢啦~