大佬有没有对比和VLLM的推理效果?
white-wolf-tech opened this issue · 2 comments
white-wolf-tech commented
我实验发现。
没有并发的时候,tp=1,tp=2,tp=4。
Tensorrt-LLM推理速度都是高于VLLM。
启用并发的时候,VLLM使用异步IO,启用continuous batching。
Tensorrt-LLM编译也使用了inflight_batching
对比下来,Tensorrt-LLM慢到离谱。
我提了一个issue。里面有详细对比数据:
NVIDIA/TensorRT-LLM#965
liyunhan commented
@x-transformers 大佬,从效果上看哪个更好?我看一些tensorrt-llm测评是掉1~2个点
white-wolf-tech commented
@x-transformers 大佬,从效果上看哪个更好?我看一些tensorrt-llm测评是掉1~2个点
你可以试试最新的tensorrt-llm,好像是解决了