请问参考Bert-VITS2项目本项目都修改了哪些内容呢?
Closed this issue · 4 comments
JohnHerry commented
您好,看到介绍说本项目基于 https://github.com/fishaudio/Bert-VITS2 但是修正了其中一些问题,请问都修改了哪些问题呢? 我关注的是模型定义和训练过程问题,而不是它的多语言支持和工程化呈现等方面的。
YYuX-1145 commented
你看的是旧的readme吧。你应该知道,最开始这个项目里有些代码是缺失或存在一些低级问题导致无法运行的,而这是为了提高门槛,而现在则可以说几乎没有了。唯一的问题是data_utils.py里load_wav_to_torch函数使用的scipy读取wav文件可能不太正常,应该是依赖问题而不是代码本身的问题,并且我把它改成了用torchaudio加载。模型和训练代码没有动过。别的现在已经没有修改了。
JohnHerry commented
是的,我用的Bert-VITS2 V1.0.1 ,我们不需要多语言支持,也不需要webui那些花哨的东西,就是一个模型主干就行了。其中有些问题也参考 pytorch_vits2项目改好了,但是发现从头训练还是有问题, 可能训练到7W或者十几W步,就卡住了,也不崩溃报错,也不继续训练和写日志,就是单纯卡死了。不知道咋回事。
另外我们用中文样本去训的时候,发现有大量的发音不准的问题,怀疑是BERT特征侵染了phoneme编码,导致没办法正常发音了,这是个严重的问题,你们有遇到吗?
YYuX-1145 commented
减佬说过半精度训练会炸,从头开始训也有概率炸......
JohnHerry commented
减佬说过半精度训练会炸,从头开始训也有概率炸......
它倒不炸,就是僵死在那里不动了。要是炸出来给些日志还好些。另外我们训练的时候,fp16都是关掉了的。