LLM:chatGLM2推理加速
Lxhnnn opened this issue · 1 comments
Lxhnnn commented
怎么提高GLM2模型的推理速度
Tongjilibo commented
glm2有使用flash_attention和multihead_attention,继续加速可以考虑一些加速框架吧
Lxhnnn opened this issue · 1 comments
怎么提高GLM2模型的推理速度
glm2有使用flash_attention和multihead_attention,继续加速可以考虑一些加速框架吧