用GLM-10B-chinese训练RLHF过程，有没有模型并行的方式？

Question

taofennanhai opened this issue 2 years ago · 4 comments

训练RLHF过程需要4个GLM-10B-chinese大小的模型，但是一块A100的卡不足以放的下这么多模型。是否有模型并行可以支持？

感谢

Answer 1 · 2023-05-08T07:26:40.000Z

你好，目前实验的结果是GLM和Pangu类模型使用deepspeed stage=3，也没有实现模型并行（每张卡的显存占用和单卡时基本一样）。但是ChatGLM开启deepspeed stage=3，可以实现模型并行（卡越多，每张卡的显存占用越低）

如果是要使用单张A100训练GLM-10B-Chinese，建议reward模型可以选择更小的模型（如果SFT和Reward都是10B，模型本身占用的显存就超过80G），然后使用LoRA进行训练，减少梯度和优化器显存占用

Answer 2 · 2023-05-08T07:36:11.000Z

GLM-10B-Chinese作为SFT，那使用小模型作为reward model，A100（40G）似乎也放不下?

Answer 3 · 2023-05-08T07:43:17.000Z

A100 40G确实不够，我以为是A100 80G😂