大佬有没有对比和VLLM的推理效果？

Question

white-wolf-tech opened this issue a year ago · 2 comments

我实验发现。
没有并发的时候，tp=1，tp=2，tp=4。
Tensorrt-LLM推理速度都是高于VLLM。

启用并发的时候，VLLM使用异步IO，启用continuous batching。
Tensorrt-LLM编译也使用了inflight_batching
对比下来，Tensorrt-LLM慢到离谱。
我提了一个issue。里面有详细对比数据：
NVIDIA/TensorRT-LLM#965

Answer 1 · 2024-04-08T08:19:49.000Z

@x-transformers 大佬，从效果上看哪个更好？我看一些tensorrt-llm测评是掉1~2个点

Answer 2 · 2024-04-10T09:52:13.000Z

@x-transformers 大佬，从效果上看哪个更好？我看一些tensorrt-llm测评是掉1~2个点

你可以试试最新的tensorrt-llm，好像是解决了