标准提问格式,请大家按照这个方式进行提问~(重要)(非常重要)
Opened this issue · 0 comments
标准示例:
环境:
soc环境
transformers:4.32.0
torch:2.0.1+cpu
LLM-TPU:6fcc8bf/latest 2024.06.30
tpu-mlir:d0cbae7 2024.06.30
driver版本:0.5.1
libsophon:#1 SMP Sun Jun 16 05:39:19 CST 2024
路径:
/workspace/LLM-TPU/models/Qwen1_5/python_demo
操作:
python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample
问题:
其他:
自己编译的模型无法跑通,使用./run.sh --model llama2 --arch soc的能跑通
示例说明
环境:
soc环境(需要注明是soc环境还是pcie环境,这两者的处理方式不同)
transformers:4.32.0(可以不用,但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本)
torch:2.0.1+cpu(可以不用,但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本)
LLM-TPU:6fcc8bf/latest 2024.06.30(git log命令查看,具体commit id可以不要,但是日期一定要)
tpu-mlir:d0cbae7 2024.06.30(如果是自己编译的模型,需要提交tpu-mlir版本,具体commit id可以不要,但是日期一定要)
driver版本:0.5.1(使用bm-smi命令查看)
libsophon:#1 SMP Sun Jun 16 05:39:19 CST 2024 (soc使用uname -v,pcie使用cat /proc/bmsophon/driver_version)
(基本上50%以上的问题都是版本问题)
路径:
/workspace/LLM-TPU/models/Qwen1_5/python_demo
操作:
python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample
问题:
(问题截图需要清晰的展现输入的命令,具体的错误,以及使用的路径,如果路径比较敏感建议打码,但是LLM-TPU后面的要带上)
(需要bm-smi的截图,使用bm-smi后,可以看到显存使用情况)
其他:
如果是自己编译的模型,需要注明使用拉下来的模型,能否跑通