Zejun-Yang/AniPortrait

有个训练的小问题请问下作者大大

onedotone-wei opened this issue · 2 comments

跌跌撞撞的把vf和celebv数据准备好,开始尝试自己训练,有个训练的小问题请教下,
按照设置的频率保存pth,每次保存都会把之前的删除,按照常规理论不是应该保存loss最小的那个吗,每次都保存再把之前的删除是基于什么原因考虑的?
如果说训练的过程中有0.01的loss,但十万的最后那次是0.1,这最后的pth效果会更好吗?

受显存限制,目前训练AniPortrait模型时batch size只能设定为1,每次step的loss仅代表一个样本,统计层面上的参考价值不大。因此在训练过程,loss最低的checkpoint可能并不意味着具有最佳的泛化能力。当然您也可以尝试对比最低loss的模型与训练最长时间的模型之间的性能差异。

感谢感谢