aph-asic opened this issue 2 years ago · 1 comments
这是正常现象。因为在使用fp16训练的时候要对loss做一个scaling,也就是乘以一个系数,以防止backward的时候梯度出现NaN或者Inf。使用的系数是从极大值(2^32)开始,如果梯度溢出的话就将系数减半。图中的log就是这部分内容。等找到合适的系数之后就不会出现overflow了。