xusenlinzy/api-for-open-llm
Openai style api for open large language models, using LLMs just as chatgpt! Support for LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口
PythonApache-2.0
Issues
- 0
💡 [REQUEST] - Cohere embed 支持
#178 opened - 3
可否考虑添加llama.cpp推理引擎
#177 opened - 1
💡 [REQUEST] - 想知道template中的这些模型全都支持吗?
#176 opened - 1
💡 [REQUEST] - vllm支持更多模型
#175 opened - 1
- 7
- 4
在使用百川2的时候 经常出现响应内容携带human字样,用户体验不好,可以解决吗
#171 opened - 1
请问支持启动时加载多个LLM模型吗?
#170 opened - 3
更新到了最新版本,流式输出还是一直停不下来
#169 opened - 1
最新的代码仍不支持qwen-14b模型下"role":"assistant"的对话
#168 opened - 4
- 5
求助 非chat的baichuan1 7b怎么运行
#166 opened - 1
- 0
💡 [REQUEST] - <title>请支持chat2DB
#163 opened - 2
使用发现模型不能进行并发推理,请问是我没有配置正确还是功能限制?如何才能进行并发推理
#162 opened - 2
- 1
💡 [REQUEST] - 是否有计划增加对autogen的支持?
#160 opened - 0
💡 [REQUEST] - <title>请支持Qwen-Agent接口,感谢!!!
#159 opened - 2
💡 [REQUEST] - <title>如何解决跨域问题?
#158 opened - 1
- 2
💡 [REQUEST] - 如何多卡运行?
#156 opened - 2
- 0
- 3
用Qwen14B 的流式输出输出停不下来
#153 opened - 0
💡 [REQUEST] - 跟 ChatGLM3 配套的视觉语言模型 CogVLM 支持
#152 opened - 3
💡 [REQUEST] - 支持chatglm3-6B
#151 opened - 1
默认GPU0运行的,怎么配置能到GPU1运行?
#150 opened - 3
Qwen-14B-Chat-Int4 响应速度比未量化的版本慢很多
#149 opened - 2
QWEN使用vllm启动时,没有对|endoftext|进行截断
#147 opened - 0
- 1
- 3
- 2
conda 虚拟环境下执行pip install -r requirements.txt
#143 opened - 3
💡 [REQUEST] - <title> wizardLM系列求更新!
#142 opened - 0
模型支持: 建议增加微软的 microsoft/phi-1_5
#141 opened - 1
用vllm的docker镜像打包报错
#140 opened - 5
- 2
- 2
- 0
为什么用lora微调完成后稍微和原始问题不一样就回答错误呢
#136 opened - 1
Qwen-14B-Chat-Int4 加载报错
#135 opened - 3
💡 [REQUEST] - 需要支持Qwen-14B-chat
#134 opened - 1
你好,支持书生20B吗
#133 opened - 0
这个项目非常有价值,感恩随喜!💡 [REQUEST] - <title>
#132 opened - 3
GPU KV cache usage: 100.0% 之后卡死?
#131 opened - 0
- 1
- 3
请求的时候传了max_token==4000但是每次聊天返回只有500左右
#128 opened - 2
采用Vllm方式启动baichuan2-7b模型,回复乱码
#127 opened - 1
💡 [REQUES"text-embedding-ada-002T] - <title>
#126 opened