Qwen-32b prompt cache不支持

Question

Qwen-32b prompt cache不支持

wangye360 opened this issue 8 months ago · 4 comments

脚本：
`cd Qwen-TensorRT-LLM/examples/qwen2/

python3 build.py --hf_model_dir qwen1.5-32b-path
--dtype float16
--remove_input_padding
--gpt_attention_plugin float16
--gemm_plugin float16
--use_inflight_batching
--enable_context_fmha
--paged_kv_cache
--enable_context_fmha
--output_dir my-outpath
--weight_only_precision int4
--use_weight_only`

转换后的config文件中，use_paged_context_fmha = false，prompt cache没有打开，qwen-7b、14b没有这个问题。

Answer 1 · 2024-05-11T04:16:06.000Z

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

Answer 2 · 2024-05-13T04:02:10.000Z

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了，感谢，大佬考虑支持下 enable_context_gqa吗或者 32b的prompt cache

Answer 3 · 2024-05-13T04:04:39.000Z

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了，感谢，大佬考虑支持下 enable_context_gqa吗或者 32b的prompt cache

得nv那边支持才行，本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件，改起来应该不难。

Answer 4 · 2024-05-13T09:14:38.000Z

32b是GQA(group query attention)不是mha,所以这个enable_context_fmha不生效是正常的。

了解了，感谢，大佬考虑支持下 enable_context_gqa吗或者 32b的prompt cache

得nv那边支持才行，本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件，改起来应该不难。

有点难度 🤦‍♂️