owenliang/qwen-vllm

vllm推理提速不明显,如何解决?

zzyzeyuan opened this issue · 3 comments

history=None
for i in range(len(raw_prompts)):
    # len(raw_prompts) = 100
    q = raw_prompts[i]
    response, history = vllm_model.chat(query=q, history=history)
    print(response)
    history = history[:10]

之前没有用vllm,100个prompts大约是52s,使用vllm之后仍然是52s左右,似乎没有提速?
请问有人能帮忙看一下吗?

history=None
for i in range(len(raw_prompts)):
    # len(raw_prompts) = 100
    q = raw_prompts[i]
    response, history = vllm_model.chat(query=q, history=history)
    print(response)
    history = history[:10]

之前没有用vllm,100个prompts大约是52s,使用vllm之后仍然是52s左右,似乎没有提速? 请问有人能帮忙看一下吗?

history=None
for i in range(len(raw_prompts)):
    # len(raw_prompts) = 100
    q = raw_prompts[i]
    response, history = vllm_model.chat(query=q, history=history)
    print(response)
    history = history[:10]

之前没有用vllm,100个prompts大约是52s,使用vllm之后仍然是52s左右,似乎没有提速? 请问有人能帮忙看一下吗?

你好,想问一下千问模型部署好了再用vllm加速吗

history=None
for i in range(len(raw_prompts)):
    # len(raw_prompts) = 100
    q = raw_prompts[i]
    response, history = vllm_model.chat(query=q, history=history)
    print(response)
    history = history[:10]

之前没有用vllm,100个prompts大约是52s,使用vllm之后仍然是52s左右,似乎没有提速? 请问有人能帮忙看一下吗?

history=None
for i in range(len(raw_prompts)):
    # len(raw_prompts) = 100
    q = raw_prompts[i]
    response, history = vllm_model.chat(query=q, history=history)
    print(response)
    history = history[:10]

之前没有用vllm,100个prompts大约是52s,使用vllm之后仍然是52s左右,似乎没有提速? 请问有人能帮忙看一下吗?

你好,想问一下千问模型部署好了再用vllm加速吗

一般都是直接用vllm框架部署qwen的