请问为什么smoothquant量化后显存占用不降低呢

Question

tp-nan opened this issue 10 months ago · 6 comments

你好，
readme中表格显示7B 的模型int8 smooth quant后显存占用和fp16一样，都是21GB. 为什么int8 smooth quant没有降低显存呢？

另外请问int4 gptq (manual) 和 int4 gptq (raw) 有什么区别

Answer 1 · 2024-03-12T14:05:54.000Z

这个是最大显存要求（主要是编译期间），不是使用时的显存。
Int8平滑量化需要将原模型导入gpu并进行推理，所以需要较大显存。

Answer 2 · 2024-03-13T01:20:28.000Z

实际在12或者16gb显卡上部署int8 的模型，只能在同类别显卡上进行模型转换，那这样的话走不通了。。。

Answer 3 · 2024-03-13T01:36:58.000Z

是的，对个人小显存显卡来说还是int4-gptq/awq更好一些。
int8 smooth quant或许更适合企业生成用，能降低大量显存（模型以及kv-cache占用)。

Answer 4 · 2024-03-13T01:42:55.000Z

谢谢你的经验分享～

7b int4 awq 有办法在16gb显卡上部署么？他编译阶段需要21gb显卡，编译出来的plan只能在对应显卡使用

Answer 5 · 2024-03-13T01:47:19.000Z

用另外一个大显存显卡去做awq的标定得到一个.pt文件（这步骤费显存）。
再把这个.pt文件给16gb显卡去获取engine，基本显存就可以降下来了，有点类似导入原生int4-gptq的过程）

Answer 6 · 2024-03-13T01:58:09.000Z

好的我试试 thx