再弱弱的问一个问题,训练到多少算是完成的?
krysof opened this issue · 19 comments
看代码好像是 10000 步?但step 22xxxx都没停。。。
不会自动停止,一般通过看loss的范围,手动去停止
INFO - g 10.1374 m 5.2200 s 4.1075 d 0.1266 | step 233850
这样是不是差不多了?
这个loss看上去不太好,而且训练了很久了吧?使用预训练模型在微调的话,lora: Fasle的话s应该在2.5左右、但是容易过拟合, lora: True的话s应该在3左右 、不会过拟合。训练数据有样例没有呢?
就是纯按教程的流程跑的,有80分钟左右人声的音频,切片10秒一段,保证没空的。 lora 默认是 true 的吧,跑了24小时左右。训练数据样例是指 wav ?
训练数据样例是指 wav ?是的
可以使用tensorboard --logdir logs/ 查看和听训练效果
80分钟左右人声,是一个人的还是多个人的?
数据如下,是同一个人的声音。
链接: https://pan.baidu.com/s/1mxCgl1QsR1fCBIlFTigKzg?pwd=5h6j
这个页面可以听训练效果
上面5个是模型生成的,下面5个是原始音频;5这个数字是设置的。
上下听上去差不多是不是就可以了?但怎么看出是哪个pt的?比如 234688 就用234680的?
上面展示的都是最新的模型的效果,就是序号最大的那个
感谢回答这些小白问题,我再试试看看。。。
还是得再问一个,怎么增加试听数量,是在配置文件,还是 --samples_per_plugin=audio=100 ,但后者好像没有效果。
链接: https://pan.baidu.com/s/1EhaxXueZFDGKZIoHhuFuhA?pwd=8wkz 提取码: 8wkz
好像怪怪的。。。
网上那些是有强大的后期混音的,百万修音师那种;弄一个UI编辑F0是很有必要的,现在还没有白嫖的完全能用的F0提取模型和算法。
目前用 audution,不过缺少相应的基础知识,不知道要怎么改。。。