部署CodeFuse-CodeLlama-34B-4bits推理，推理速度太慢了

Question

Closed this issue a year ago · 1 comments

部署CodeFuse-CodeLlama-34B-4bits推理，推理速度太慢了，使用A100推理，显存占用大概21G，max_length为512，推理速度接近10min以上，这个框架下有相关加速推理方案吗？

Answer 1 · 2024-07-01T04:27:28.000Z

这个框架不做这个事情。在modelcache那的项目可以提一下。那边有计划做这些事。如果没有其它问题，这个问题将在6点之后进行关闭