MUGE-2021/image-retrieval-baseline

关于训练的问题

Closed this issue · 5 comments

Hi, 你好,我按照要求重新训练了整个过程,但是训练时第一个epoch还没结束时,loss就卡在3.46左右不再下降,第1、2、3、4epoch上val_loss均为2.7725没有发生变化,请问这是什么原因造成的?

请问可以提供一下训练日志吗?在正常的情况下,train_loss可以保持一直下降的趋势,第2轮就可以下降到1.0以下。由于模型的temperature(logit_scale)不断变化,val_loss不一定是保持下降的,但是应该不会不发生变化

可以确认一下预训练参数是否有正确载入模型,这个对于训练收敛的趋势会有较大的影响

您好,我已经把训练日志发送到您gmail邮箱了,请查收

收到,我看下

Hi, 你好,我按照要求重新训练了整个过程,但是训练时第一个epoch还没结束时,loss就卡在3.46左右不再下降,第1、2、3、4epoch上val_loss均为2.7725没有发生变化,请问这是什么原因造成的?

您好,初步判断问题是由于batch_size相比于默认配置缩小了比较多(从8卡*32变为了2卡*16),导致batch内对比学习训练的不稳定性可能有所增加,此时需要减小默认的学习率。可以尝试把学习率从默认值8e-5减小为1e-5,我这里用同样的2卡超参目前训练了1轮多,模型还在继续收敛,没有再出现loss卡在3.4左右不下降的问题。我这里也会继续训练并观察有没有彻底解决这个问题,也建议最好使用更多GPU和更大的batch_size进行对比学习训练,以得到更稳定的收敛和更好的效果。