怎样用BMInf加速GLM推理速度
jiangliqin opened this issue · 4 comments
jiangliqin commented
在V100下GLM的推理速度在10-20s区间内
用BMInf加速GLM,推理速度在1m以上
请问这是什么原因以及怎么加速GLM推理呢?
a710128 commented
BMInf的目标是在低资源下运行大模型,因此在低资源的情况下不能保证速度更快。如果你想要更快的推理速度,可以将内存的限制调大,并启用int8量化,这样在资源充足的情况下会有速度提升。
jiangliqin commented
好的,请问有相关的工具可以推荐实验吗?
a710128 commented
BMInf有自带量化模块,不过如果不对模型进行后处理的话,量化会导致一定的性能损失。你可以启用int8量化来测试一下。
jiangliqin commented
好的,谢谢