Tlntin/Qwen-TensorRT-LLM

Qwen1.5做smoothquant时维度不对

zgplvyou opened this issue · 3 comments

https://github.com/Tlntin/Qwen-TensorRT-LLM/blob/main/examples/qwen2/utils/convert.py#L264
qwen1.5在做量化校准时,qkv的weight被堆叠在一起,但是GQA情况下q和kv的head数不一样,为何这个地方reshape变成3的倍数。我实际运行时在此处就发现维度无法reshape的情况。

目测是走错了分支,没有走上面的mutl_query_mode分支。
看了一下是这个参数传错了。只需要注释掉旧的mutl_query_mode分支判断,加一个新的就可以了。
image

已经push最新代码,修复了此处bug,尚不确定是否还有其他bug(没有卡测试)

测试了一下codaqwen1.5,这里已修复,并且双卡int8 smooth也运行正常。