Duanexiao opened this issue 4 months ago · 2 comments
如models/GLM-4/04-GLM-4-9B-Chat vLLM 部署调用.md 中示例,通过curl访问部署的服务,询问机器人"你好"的时候,
请问这个是为什么?用的官方的vllm_client_demo.py文件就是正常的
这个不清楚,用的模型都一样,可能是温度值设置的问题叭?
感谢回复。知道原因了,第一个调用的是v1/completions这个接口,这个接口就是一个文本续写的功能,所以才出现这样的问题,应该调用v1/chat/completions接口。而第二个这个情况是因为设置了max_tokens为7,不应该加这个限制.去掉这个限制就是对的