xusenlinzy/api-for-open-llm

可否考虑添加llama.cpp推理引擎

Lookforworld opened this issue · 3 comments

提交前必须检查以下项目 | The following items must be checked before submission

  • 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。 | Make sure you are using the latest code from the repository (git pull), some issues have already been addressed and fixed.
  • 我已阅读项目文档FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案 | I have searched the existing issues / discussions

问题类型 | Type of problem

模型推理和部署 | Model inference and deployment

操作系统 | Operating system

Linux

详细描述问题 | Detailed description of the problem

@xusenlinzy
可否添加llama.cpp推理,他们本身有sever服务,也提供了一套类open的sever脚本,但是脚本内容有待完善,我这两天试图用将llama.cpp server跟您的server整合,但是难度有点高,各种嵌套调用这两天给我整麻了,各种调试不通过,所以希望作者出马整合llama.cpp引擎。(PS,vLLM门槛太高,硬件要求不达标安装不了😭)

Dependencies

# 请在此处粘贴依赖情况
# Please paste the dependencies here

运行日志或截图 | Runtime logs or screenshots

# 请在此处粘贴运行日志
# Please paste the run log here

https://github.com/xusenlinzy/api-for-open-llm/blob/master/docs/LLAMA_CPP.md

更新了一下,你可以测试有没有问题哈

https://github.com/xusenlinzy/api-for-open-llm/blob/master/docs/LLAMA_CPP.md

更新了一下,你可以测试有没有问题哈

@xusenlinzy 非常感谢!我其实更建议llama.cpp,他们提供了api_like_OAI.py这个python接口。这个c版本的更稳定,我用python版本的会时不时报cuda 102,但是c版本的不会。当然了,依然非常感谢!

https://github.com/xusenlinzy/api-for-open-llm/blob/master/docs/LLAMA_CPP.md

更新了一下,你可以测试有没有问题哈

可用, 但是速度很慢, 应该llama.cpp本身就慢