Tlntin/Qwen-TensorRT-LLM

Qwen-32b prompt cache不支持

wangye360 opened this issue · 4 comments

脚本:
`cd Qwen-TensorRT-LLM/examples/qwen2/

python3 build.py --hf_model_dir qwen1.5-32b-path
--dtype float16
--remove_input_padding
--gpt_attention_plugin float16
--gemm_plugin float16
--use_inflight_batching
--enable_context_fmha
--paged_kv_cache
--enable_context_fmha
--output_dir my-outpath
--weight_only_precision int4
--use_weight_only`

转换后的config文件中,use_paged_context_fmha = false,prompt cache没有打开,qwen-7b、14b没有这个问题。

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache

得nv那边支持才行,本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件,改起来应该不难。

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache

得nv那边支持才行,本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件,改起来应该不难。

有点难度 🤦‍♂️