Loss Nan Value

Question

PriyankaPaud opened this issue 2 years ago · 5 comments

I am getting the value for loss as Nan

And cuda error while training

Answer 1 · 2023-06-03T01:45:56.000Z

I didn't encounter this problem. Did you use 16 bit precision training?

Answer 2 · 2023-10-10T09:53:55.000Z

如果是fp16训练遇到nan是正常的吗？

Answer 3 · 2023-10-10T12:29:36.000Z

正常的，可以用之前epoch的checkpoint使用32精度继续训练

Answer 4 · 2023-10-10T12:30:38.000Z

@xxchauncey 可以用bf16，性能比fp16差点，但不怎么遇到nan

Answer 5 · 2023-10-11T03:28:02.000Z

@xxchauncey 可以用bf16，性能比fp16差点，但不怎么遇到nan

感谢，我是最近才接触audio separation这一块的，前阵子切换了好几种backbone都会在训练中期出现nan，在v100卡上解决方案只能是切回32精度继续训练。以前不管是asr还是小型nlp模型都没有碰到过这样的情况，所以比较好奇。