训练THUMOS-14过程中出现train_act_inst_cls_loss和trian_loss为nan的情况

Question

Closed this issue 2 years ago · 1 comments

感谢分享优秀的工作，我没做任何参数修改的情况下在THUMOS-14上复现了论文中的精度。但是训练过程中出现了train_act_inst_cls_loss=nan和trian_loss=nan的情况，想请问一下这是什么情况？有什么解决的办法吗？

Answer 1 · 2022-05-07T14:32:00.000Z

这个问题的可能是由于dropout导致的，因为在训练过程中为了提取到更robust的特征，我们的dropout的参数设置的较大。为了避免loss=nan导致无法训练过程崩溃，我们在训练代码中加入了一个if判断，如果当前loss为nan，就跳过当前的iteration，不进行网络参数的更新