codefuse-ai/codefuse-chatbot

部署CodeFuse-CodeLlama-34B-4bits推理,推理速度太慢了

Closed this issue · 1 comments

部署CodeFuse-CodeLlama-34B-4bits推理,推理速度太慢了,使用A100推理,显存占用大概21G,max_length为512,推理速度接近10min以上,这个框架下有相关加速推理方案吗?

这个框架不做这个事情。在modelcache那的项目可以提一下。那边有计划做这些事。如果没有其它问题,这个问题将在6点之后进行关闭