Qwen1.5做smoothquant时维度不对
zgplvyou opened this issue · 3 comments
zgplvyou commented
https://github.com/Tlntin/Qwen-TensorRT-LLM/blob/main/examples/qwen2/utils/convert.py#L264
qwen1.5在做量化校准时,qkv的weight被堆叠在一起,但是GQA情况下q和kv的head数不一样,为何这个地方reshape变成3的倍数。我实际运行时在此处就发现维度无法reshape的情况。
Tlntin commented
Tlntin commented
已经push最新代码,修复了此处bug,尚不确定是否还有其他bug(没有卡测试)
Tlntin commented
测试了一下codaqwen1.5,这里已修复,并且双卡int8 smooth也运行正常。