Tlntin/Qwen-TensorRT-LLM

请问为什么smoothquant量化后显存占用不降低呢

tp-nan opened this issue · 6 comments

你好,
readme中表格显示7B 的模型int8 smooth quant后显存占用和fp16一样,都是21GB. 为什么int8 smooth quant没有降低显存呢?

另外请问int4 gptq (manual) 和 int4 gptq (raw) 有什么区别

这个是最大显存要求(主要是编译期间),不是使用时的显存。
Int8平滑量化需要将原模型导入gpu并进行推理,所以需要较大显存。

实际在12或者16gb显卡上部署int8 的模型,只能在同类别显卡上进行模型转换,那这样的话走不通了。。。

是的,对个人小显存显卡来说还是int4-gptq/awq更好一些。
int8 smooth quant或许更适合企业生成用,能降低大量显存(模型以及kv-cache占用)。

谢谢你的经验分享~

7b int4 awq 有办法在16gb显卡上部署么?他编译阶段需要21gb显卡,编译出来的plan只能在对应显卡使用


用另外一个大显存显卡去做awq的标定得到一个.pt文件(这步骤费显存)。
再把这个.pt文件给16gb显卡去获取engine,基本显存就可以降下来了,有点类似导入原生int4-gptq的过程)

好的 我试试 thx