xusenlinzy/api-for-open-llm

使用发现模型不能进行并发推理,请问是我没有配置正确还是功能限制?如何才能进行并发推理

Closed this issue · 2 comments

提交前必须检查以下项目 | The following items must be checked before submission

  • 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。 | Make sure you are using the latest code from the repository (git pull), some issues have already been addressed and fixed.
  • 我已阅读项目文档FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案 | I have searched the existing issues / discussions

问题类型 | Type of problem

效果问题 | Effectiveness issues

操作系统 | Operating system

Linux

详细描述问题 | Detailed description of the problem

# 请在此处粘贴运行代码(如没有可删除该代码块)
# Paste the runtime code here (delete the code block if you don't have it)

Dependencies

# 请在此处粘贴依赖情况
# Please paste the dependencies here

运行日志或截图 | Runtime logs or screenshots

# 请在此处粘贴运行日志
# Please paste the run log here

为什么不使用vllm咱们得这个项目开放出的api不能多个问题同时推理,发现是一个问题一个问题顺序执行的,并且发现执行完成一个推理后显存会自动释放,这个挺好的;我测试直接用模型官方提供的函数加载模型,是可以多个问题同时推理的