通过vllm部署的GLM-4-9B-Chat模型效果很拉垮

Question

Duanexiao opened this issue 4 months ago · 2 comments

如models/GLM-4/04-GLM-4-9B-Chat vLLM 部署调用.md 中示例，通过curl访问部署的服务，询问机器人"你好"的时候,

请问这个是为什么？用的官方的vllm_client_demo.py文件就是正常的

Answer 1 · 2024-08-15T10:59:36.000Z

这个不清楚，用的模型都一样，可能是温度值设置的问题叭？

Answer 2 · 2024-08-16T06:28:50.000Z

感谢回复。知道原因了，第一个调用的是v1/completions这个接口，这个接口就是一个文本续写的功能，所以才出现这样的问题，应该调用v1/chat/completions接口。而第二个这个情况是因为设置了max_tokens为7,不应该加这个限制.去掉这个限制就是对的