Tlntin/Qwen-TensorRT-LLM

Qwen-14B INT4-AWQ 用tp=2时量化失败

Closed this issue · 1 comments

transformer.h.0.mlp.c_proj 矩阵的大小是[13696, 5120],group_size为128,13696/128=107,107无法被tp=2整除,导致报错:image
请问有没有办法解决?

尝试了把group_size改成64,模型能转换完成,但推理的结果都是胡说八道。

不能整除有点尴尬😅,不太好解决。