PlayVoice/lora-svc

高音崩掉了

FlyToYourMooN opened this issue · 7 comments

语音数据集1000句训练10个EPOCH,转歌声时使用了Pitch shift,结果高音部分崩掉,这是因为Base model没有见过高音吗
image

应该是,最好高音只能到800Hz左右吧

我训练了一个包含大量唱歌数据的Base model,仍然出现这种问题,排查后发现可能是因为这首歌这一段F0最大到了1014,但是Dio算法的F0_ceil=800,模型没见过800以上的基频,我调到1200再训练一版试试

我知道原因了,DIO算法波动太大, 换成parselmouth解决

学到了,万万分感谢您 @FlyToYourMooN

没有没有,你才是大佬,和SOVITS一样,我是训练用DIO,推理用Parselmouth

相互学习,一起进步

对了我发现你附带的那个CREPE就很好……只是我刚开始一直报错就没有用,后来发现读取的时候音频要to(torch.float32),希望能帮到有问题的人,总而言之,这是个优雅高质量的项目,加油!