Tlntin/Qwen-TensorRT-LLM

如何使用qwen/run.py批量获取到一批query的模型output?

Opened this issue · 0 comments

我看我们的run.py代码可以有两种输入,一种是input-text,直接输入单个问题。第二种是输出.csv或者.npy,这两种文件里面看起来都是tokenizer之后的input_ids。能否直接输入一个包含多个问题的文本?