Tongjilibo/bert4torch

LLM:chatGLM2推理加速

Lxhnnn opened this issue · 1 comments

Lxhnnn commented

怎么提高GLM2模型的推理速度

glm2有使用flash_attention和multihead_attention,继续加速可以考虑一些加速框架吧