Tlntin/Qwen-TensorRT-LLM

显存占用

Closed this issue · 1 comments

请教一个问题。
Qwen 7B 模型参数就需要占用 14G;
看代码中如果要是用 int4 或者 int8,都是需要先 load fp16 的权重,然后再通过一个算子处理得到量化后的权重。这个时候显存肯定会爆炸。不知道你们是否有测试过显存占用情况。

weight only 那块是先加载的cpu权重,不放gpu。
其他的smooth quant和gptq因为要做标定,所以用了gpu做权重convert,大概需要20G显存,编译engine时候,基本也是20G左右,所以24G的卡完全够用。