Tlntin/Qwen-TensorRT-LLM

大佬有没有对比和VLLM的推理效果?

white-wolf-tech opened this issue · 2 comments

我实验发现。
没有并发的时候,tp=1,tp=2,tp=4。
Tensorrt-LLM推理速度都是高于VLLM。

启用并发的时候,VLLM使用异步IO,启用continuous batching。
Tensorrt-LLM编译也使用了inflight_batching
对比下来,Tensorrt-LLM慢到离谱。
我提了一个issue。里面有详细对比数据:
NVIDIA/TensorRT-LLM#965

@x-transformers 大佬,从效果上看哪个更好?我看一些tensorrt-llm测评是掉1~2个点

@x-transformers 大佬,从效果上看哪个更好?我看一些tensorrt-llm测评是掉1~2个点

你可以试试最新的tensorrt-llm,好像是解决了