标准提问格式，请大家按照这个方式进行提问~（重要）（非常重要）

Question

标准提问格式，请大家按照这个方式进行提问~（重要）（非常重要）

Opened this issue 4 months ago · 0 comments

chuxiaoyi2023 commented 4 months ago

标准示例：

环境：

soc环境
transformers：4.32.0
torch：2.0.1+cpu
LLM-TPU：6fcc8bf/latest 2024.06.30
tpu-mlir：d0cbae7 2024.06.30
driver版本：0.5.1
libsophon：#1 SMP Sun Jun 16 05:39:19 CST 2024

路径：

/workspace/LLM-TPU/models/Qwen1_5/python_demo

操作：

python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample

问题：

其他：

自己编译的模型无法跑通，使用./run.sh --model llama2 --arch soc的能跑通

示例说明

环境：

soc环境（需要注明是soc环境还是pcie环境，这两者的处理方式不同）
transformers：4.32.0（可以不用，但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本）
torch：2.0.1+cpu（可以不用，但是涉及到onnx与tokenizer相关的问题需要transformers以及torch版本）
LLM-TPU：6fcc8bf/latest 2024.06.30（git log命令查看，具体commit id可以不要，但是日期一定要）
tpu-mlir：d0cbae7 2024.06.30（如果是自己编译的模型，需要提交tpu-mlir版本，具体commit id可以不要，但是日期一定要）
driver版本：0.5.1（使用bm-smi命令查看）
libsophon：#1 SMP Sun Jun 16 05:39:19 CST 2024 （soc使用uname -v，pcie使用cat /proc/bmsophon/driver_version）
（基本上50%以上的问题都是版本问题）

路径：

/workspace/LLM-TPU/models/Qwen1_5/python_demo

操作：

python3 pipeline.py --model_path ../compile/qwen1.5-1.8b_f16_seq4096_1dev.bmodel --tokenizer_path ../token_config/ --devid 12 --generation_mode penalty_sample

问题：

（问题截图需要清晰的展现输入的命令，具体的错误，以及使用的路径，如果路径比较敏感建议打码，但是LLM-TPU后面的要带上）
（需要bm-smi的截图，使用bm-smi后，可以看到显存使用情况）

其他：

如果是自己编译的模型，需要注明使用拉下来的模型，能否跑通