bubbliiiing/unet-pytorch

训练中突然total_loss=NaN的问题

Finn-Neo opened this issue · 0 comments

没有改动网络;二分类的任务训练;数据集包含2.4w个图像;batch_size=24,input_size=256×256;
问题:在第99个eopch时,total_loss突然为nan,在第101个epoch时,val_loss也变成了nan,如图所示
image
image
我查了下,具体有这几种情况:梯度爆炸、学习率过大、损失函数不合适等等,但是不知道是哪种原因。
请问老师您有何见解?