PlayVoice/lora-svc

再弱弱的问一个问题,训练到多少算是完成的?

krysof opened this issue · 19 comments

看代码好像是 10000 步?但step 22xxxx都没停。。。

不会自动停止,一般通过看loss的范围,手动去停止

INFO - g 10.1374 m 5.2200 s 4.1075 d 0.1266 | step 233850

这样是不是差不多了?

这个loss看上去不太好,而且训练了很久了吧?使用预训练模型在微调的话,lora: Fasle的话s应该在2.5左右、但是容易过拟合, lora: True的话s应该在3左右 、不会过拟合。训练数据有样例没有呢?

就是纯按教程的流程跑的,有80分钟左右人声的音频,切片10秒一段,保证没空的。 lora 默认是 true 的吧,跑了24小时左右。训练数据样例是指 wav ?

训练数据样例是指 wav ?是的

可以使用tensorboard --logdir logs/ 查看和听训练效果

80分钟左右人声,是一个人的还是多个人的?

数据如下,是同一个人的声音。
链接: https://pan.baidu.com/s/1mxCgl1QsR1fCBIlFTigKzg?pwd=5h6j

image
虽然看不太懂,但看起来应该不妙吧?

这个页面可以听训练效果

image

不知道为何。。。只有10个可以听, logs 里有好多个 log 的

上面5个是模型生成的,下面5个是原始音频;5这个数字是设置的。

上下听上去差不多是不是就可以了?但怎么看出是哪个pt的?比如 234688 就用234680的?

上面展示的都是最新的模型的效果,就是序号最大的那个

感谢回答这些小白问题,我再试试看看。。。

还是得再问一个,怎么增加试听数量,是在配置文件,还是 --samples_per_plugin=audio=100 ,但后者好像没有效果。

链接: https://pan.baidu.com/s/1EhaxXueZFDGKZIoHhuFuhA?pwd=8wkz 提取码: 8wkz

好像怪怪的。。。

网上那些是有强大的后期混音的,百万修音师那种;弄一个UI编辑F0是很有必要的,现在还没有白嫖的完全能用的F0提取模型和算法。

目前用 audution,不过缺少相应的基础知识,不知道要怎么改。。。