Qwen-32b prompt cache不支持
wangye360 opened this issue · 4 comments
脚本:
`cd Qwen-TensorRT-LLM/examples/qwen2/
python3 build.py --hf_model_dir qwen1.5-32b-path
--dtype float16
--remove_input_padding
--gpt_attention_plugin float16
--gemm_plugin float16
--use_inflight_batching
--enable_context_fmha
--paged_kv_cache
--enable_context_fmha
--output_dir my-outpath
--weight_only_precision int4
--use_weight_only`
转换后的config文件中,use_paged_context_fmha = false,prompt cache没有打开,qwen-7b、14b没有这个问题。
32b是GQA(group query attention)不是mha,所以这个enable_context_fmha
不生效是正常的。
32b是GQA(group query attention)不是mha,所以这个
enable_context_fmha
不生效是正常的。
了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache
32b是GQA(group query attention)不是mha,所以这个
enable_context_fmha
不生效是正常的。了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache
得nv那边支持才行,本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件,改起来应该不难。
32b是GQA(group query attention)不是mha,所以这个
enable_context_fmha
不生效是正常的。了解了,感谢,大佬考虑支持下 enable_context_gqa吗 或者 32b的prompt cache
得nv那边支持才行,本人暂无计划。你感兴趣也可以去魔改一下源码对应的插件,改起来应该不难。
有点难度 🤦♂️