QwenLM/Qwen-VL

loss 在第二个step就变成了0

TAOSHss opened this issue · 4 comments

loss 在第二个step 就变成了0 训练依旧可以继续运行;这个情况 导致我 不能够了解 训练的情况,出现这种情况的原因可能是什么呢,数据的准备我剔除了较大的图像以及较小的图像,训练的图像大小都在448*448附近;并且都是单轮对话

[ { "id": "identity_0", "conversations": [ { "from": "user", "value": "Picture 1: <img>5019b9e77382910074.png</img>\n<ref>text1</ref>" }, { "from": "assistant", "value": "<box>(222,333),(444,555)</box>" }]

`
{'loss': 3.8462, 'learning_rate': 3.4482758620689656e-07, 'epoch': 0.0}

{'loss': 0.0, 'learning_rate': 6.896551724137931e-07, 'epoch': 0.01}

{'loss': 0.0, 'learning_rate': 1.0344827586206898e-06, 'epoch': 0.01}

{'loss': 0.0, 'learning_rate': 1.3793103448275862e-06, 'epoch': 0.01}

{'loss': 0.0, 'learning_rate': 1.724137931034483e-06, 'epoch': 0.02}
`

用v100训练的也遇到了同样的问题,换a100就可以了,应该是数据类型的问题,v100当时只能用float16,然后a100换成bf16就好了

我也遇到了这个问题,楼主解决了吗?

这个确实是卡的问题,V100用fp16或者fp32都不行,都会loss为0,换了A100就OK了,猜测就是需要卡能支持bf16