用GLM-10B-chinese训练RLHF过程,有没有模型并行的方式?
taofennanhai opened this issue · 4 comments
taofennanhai commented
训练RLHF过程需要4个GLM-10B-chinese大小的模型,但是一块A100的卡不足以放的下这么多模型。是否有模型并行可以支持?
sunzeyeah commented
你好,目前实验的结果是GLM和Pangu类模型使用deepspeed stage=3,也没有实现模型并行(每张卡的显存占用和单卡时基本一样)。但是ChatGLM开启deepspeed stage=3,可以实现模型并行(卡越多,每张卡的显存占用越低)
如果是要使用单张A100训练GLM-10B-Chinese,建议reward模型可以选择更小的模型(如果SFT和Reward都是10B,模型本身占用的显存就超过80G),然后使用LoRA进行训练,减少梯度和优化器显存占用
taofennanhai commented
GLM-10B-Chinese作为SFT, 那使用小模型作为reward model,A100(40G)似乎也放不下?
sunzeyeah commented
A100 40G确实不够,我以为是A100 80G😂
taofennanhai commented
感谢