fintune时显示overflow

Question

aph-asic opened this issue 2 years ago · 1 comments

Answer 1 · 2023-02-28T02:52:10.000Z

这是正常现象。因为在使用fp16训练的时候要对loss做一个scaling，也就是乘以一个系数，以防止backward的时候梯度出现NaN或者Inf。使用的系数是从极大值（2^32）开始，如果梯度溢出的话就将系数减半。图中的log就是这部分内容。等找到合适的系数之后就不会出现overflow了。