显存占用

Question

Closed this issue 7 months ago · 1 comments

请教一个问题。
Qwen 7B 模型参数就需要占用 14G；
看代码中如果要是用 int4 或者 int8，都是需要先 load fp16 的权重，然后再通过一个算子处理得到量化后的权重。这个时候显存肯定会爆炸。不知道你们是否有测试过显存占用情况。

Answer 1 · 2023-11-13T07:26:39.000Z

weight only 那块是先加载的cpu权重，不放gpu。
其他的smooth quant和gptq因为要做标定，所以用了gpu做权重convert,大概需要20G显存，编译engine时候，基本也是20G左右，所以24G的卡完全够用。