V100是否可以被用来训练模型呢?
tiesanguaixia opened this issue · 4 comments
tiesanguaixia commented
您好,感谢您很棒的工作及代码开源!想请教一下V100这样的GPU是否可以用于模型训练呢?谢谢!
gyxxyg commented
感谢关注!现在huggingface的模型可以使用v100进行微调(请注意torch版本,可以参考requirements-v100.txt)。如果是完整训练的话,因为V100显存较小,可能没法完全复用我们的setting。您可以尝试关掉qformer的梯度/不使用lora,或进行分阶段训练。
tiesanguaixia commented
感谢关注!现在huggingface的模型可以使用v100进行微调(请注意torch版本,可以参考requirements-v100.txt)。如果是完整训练的话,因为V100显存较小,可能没法完全复用我们的setting。您可以尝试关掉qformer的梯度/不使用lora,或进行分阶段训练。
好的谢谢,多张V100分布式可以复用setting来训练吗
gyxxyg commented
目前只用了数据并行,所以我猜测可能不太行。明天我会去尝试一下。
gyxxyg commented
我用4卡v100尝试了一下,可以用默认setting训练。注意step数目需要根据自己的卡数手动调整