关于add_blank和use_sdp
Closed this issue · 21 comments
谢谢作者的分享,vits里默认add_blank和use_sdp都是true,这两个参数对模型具体有什么影响呢。我没改参数,合成效果有时候停顿比较奇怪。不知道改这两个参数能不能改善。下面的是我合成出来的效果 『且我们对这些语言的掌握程度都达到比较高的水平时』
40414717-1863-41bd-836e-503fdfb22afd.wav.zip
你的效果很好啊,add_blank是【必须】的,他的作用是添加音素边界,因为我在标注里面【也】做了这个,和原作者的add_blank【重复】了;use_sdp是为了解决同一个音素不同时长的问题,关闭的话应该出现预测的音素平均时长
此外,目前没有使用韵律预测,出现停顿算正常现象,没使用韵律预测需要更多的语料进行训练来解决奇怪的停顿
你用的什么显卡训练的呢,怎么这么快
请问您有计划加入韵律预测吗?我是8张v100,所以速度比较快。另外,我是用的vits的原始代码训练的中英混杂tts. 『Hello, 我是AI助手,很高兴认识你,nice to meet you.』
d677b364-84ab-44e4-8c18-80515809aa78.wav.zip
韵律预测比较难,做的不好反而会恶化;我也算新手,在探索中;你的中英混合数据是:baker+lj吗?
baker libritts aishell3还有些自己的数据,中文数据不好弄,你有中文男声数据么
你是那些是准备做克隆吗?
不是,克隆及更难做了
都是用的默认设置吗,有没有修改什么设置
不是vits的默认设置,是configs/baker_base.json里面的设置,1080双卡,训练两天的结果
谢谢,看了下配置文件,除了采样率,好像没什么变化。对停顿不自然的情况,您有什么建议吗
我把add_blank设置成False了,不知道你的0对应的是什么音素,如果0对应音频的开始静音端,使用add_blank就有问题,中文里面静音段和音素边界不能共用id
好的,我试试看哈,多谢您的建议
请问中文,大家有用真实的时间戳进行训练的吗, 类似Fastspeech1,2那种。我实验了一下,训练,loss都是正常的,也可以合成音频,音频质量ok, 大体发音都是好的,也还是有发音错误,集中在零声母的一些发音上。请问大家有做过类似的试验吗,有什么经验分享吗?
有具体的错误音频吗?我看看我的模型有没有这样的问题。
@dtx525942103 抱歉我这边无法上传音频,就是比如“我”“云”“应”“语音”“应用”这种发音不准
VITS的建模能力很强,因此对对齐错误以及标注错误十分敏感。
@dtx525942103 可能真是这样,训了几个真实duration的模型,就像Fastspeech1,2那样,都有发音不准确的情况。你这边训练成功没有?
我用的VITS的MAS对齐,那些生僻发音(训练集中出现次数少)会发音错误
@dtx525942103 好的 明白了 多谢啦~