Qwen1.5做smoothquant时维度不对

Question

zgplvyou opened this issue 9 months ago · 3 comments

https://github.com/Tlntin/Qwen-TensorRT-LLM/blob/main/examples/qwen2/utils/convert.py#L264
qwen1.5在做量化校准时，qkv的weight被堆叠在一起，但是GQA情况下q和kv的head数不一样，为何这个地方reshape变成3的倍数。我实际运行时在此处就发现维度无法reshape的情况。

Answer 1 · 2024-04-28T10:15:38.000Z

目测是走错了分支，没有走上面的mutl_query_mode分支。
看了一下是这个参数传错了。只需要注释掉旧的mutl_query_mode分支判断，加一个新的就可以了。

Answer 2 · 2024-04-28T10:47:44.000Z

已经push最新代码，修复了此处bug,尚不确定是否还有其他bug(没有卡测试）

Answer 3 · 2024-04-29T15:00:07.000Z

测试了一下codaqwen1.5，这里已修复，并且双卡int8 smooth也运行正常。