高音崩掉了

Question

FlyToYourMooN opened this issue 2 years ago · 7 comments

语音数据集1000句训练10个EPOCH，转歌声时使用了Pitch shift，结果高音部分崩掉，这是因为Base model没有见过高音吗

Answer 1 · 2023-04-09T09:34:29.000Z

应该是，最好高音只能到800Hz左右吧

Answer 2 · 2023-04-10T14:57:18.000Z

我训练了一个包含大量唱歌数据的Base model，仍然出现这种问题，排查后发现可能是因为这首歌这一段F0最大到了1014，但是Dio算法的F0_ceil=800，模型没见过800以上的基频，我调到1200再训练一版试试

Answer 3 · 2023-04-10T16:34:23.000Z

我知道原因了，DIO算法波动太大，换成parselmouth解决

Answer 4 · 2023-04-11T02:26:25.000Z

学到了，万万分感谢您 @FlyToYourMooN

Answer 5 · 2023-04-11T02:37:56.000Z

没有没有，你才是大佬，和SOVITS一样，我是训练用DIO，推理用Parselmouth

Answer 6 · 2023-04-11T02:38:59.000Z

相互学习，一起进步

Answer 7 · 2023-04-11T02:51:43.000Z

对了我发现你附带的那个CREPE就很好……只是我刚开始一直报错就没有用，后来发现读取的时候音频要to(torch.float32)，希望能帮到有问题的人，总而言之，这是个优雅高质量的项目，加油！