怎样用BMInf加速GLM推理速度

Question

jiangliqin opened this issue 2 years ago · 4 comments

在V100下GLM的推理速度在10-20s区间内
用BMInf加速GLM，推理速度在1m以上
请问这是什么原因以及怎么加速GLM推理呢？

Answer 1 · 2022-08-04T08:35:14.000Z

BMInf的目标是在低资源下运行大模型，因此在低资源的情况下不能保证速度更快。如果你想要更快的推理速度，可以将内存的限制调大，并启用int8量化，这样在资源充足的情况下会有速度提升。

Answer 2 · 2022-08-04T08:56:11.000Z

好的，请问有相关的工具可以推荐实验吗？

Answer 3 · 2022-08-04T09:16:16.000Z

BMInf有自带量化模块，不过如果不对模型进行后处理的话，量化会导致一定的性能损失。你可以启用int8量化来测试一下。

Answer 4 · 2022-08-04T09:18:26.000Z

好的，谢谢