部署CodeFuse-CodeLlama-34B-4bits推理,推理速度太慢了
Closed this issue · 1 comments
XiHenSuper commented
部署CodeFuse-CodeLlama-34B-4bits推理,推理速度太慢了,使用A100推理,显存占用大概21G,max_length为512,推理速度接近10min以上,这个框架下有相关加速推理方案吗?
lightislost commented
这个框架不做这个事情。在modelcache那的项目可以提一下。那边有计划做这些事。如果没有其它问题,这个问题将在6点之后进行关闭