OpenLMLab/MOSS-RLHF

内存占用大问题

Closed this issue · 2 comments

首先非常感谢贵组开源的RLHF工作;我在实际运行过程中,遇到了内存不够的问题;
当用超过6个v100并行时,720G的内存也不够。。减少并行数量,显存又不够。
想问下有什么好办法解决呢?

除了Zero3和gradient checkpoint,目前确实没有比较好的减少显存or内存的方法,如果7b模型,最好要1.5T的显存和A100-40G

我自己来回答一下,在加载模型的时候指定bf16可以减少一半的内存占用