Closed this issue 7 months ago · 1 comments
请教一个问题。 Qwen 7B 模型参数就需要占用 14G; 看代码中如果要是用 int4 或者 int8,都是需要先 load fp16 的权重,然后再通过一个算子处理得到量化后的权重。这个时候显存肯定会爆炸。不知道你们是否有测试过显存占用情况。
weight only 那块是先加载的cpu权重,不放gpu。 其他的smooth quant和gptq因为要做标定,所以用了gpu做权重convert,大概需要20G显存,编译engine时候,基本也是20G左右,所以24G的卡完全够用。