运行报错

Question

运行报错

shenmadouyaowen opened this issue a year ago · 22 comments

你好,以下运行报错,两张3090,

print(model.hf_device_map)打印{'transformer': 0}

{'transformer': 0}
╭───────────────────── Traceback (most recent call last) ──────────────────────╮
│ /root/LLM-Tuning-master/chatglm2_lora_tuning.py:152 in <module>              │
│                                                                              │
│   149                                                                        │
│   150                                                                        │
│   151 if __name__ == "__main__":                                             │
│ ❱ 152 │   main()                                                             │
│   153                                                                        │
│                                                                              │
│ /root/LLM-Tuning-master/chatglm2_lora_tuning.py:108 in main                  │
│                                                                              │
│   105 │   另一个解决办法是下面这个：                                         │
│   106 │   手动把 output_layer 设置为跟 input 一样的 device                   │
│   107 │   """                                                                │
│ ❱ 108 │   model.hf_device_map['transformer.output_layer'] = model.hf_device_ │
│   109 │   model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remot │
│   110 │   print(model.hf_device_map)                                         │
│   111 │   """                                                                │
╰──────────────────────────────────────────────────────────────────────────────╯
KeyError: 'transformer.embedding'

Answer 1 · 2023-06-28T03:59:13.000Z

注释掉model.hf_device_map['transformer.output_layer'] = model.hf_device

Answer 2 · 2023-06-28T04:14:27.000Z

这个报错有点怪，你是微调的ChatGLM2吗？这个文件是针对ChatGLM2的，如果是ChatGLM，要把 train.sh 中的那个py文件换成 chatglm_lora_tuning.py

Answer 3 · 2023-06-28T04:17:12.000Z

这个报错有点怪，你是微调的ChatGLM2吗？这个文件是针对ChatGLM2的，如果是ChatGLM，要把 train.sh 中的那个py文件换成 chatglm_lora_tuning.py

是调2m,目录结构没有啥变动

Answer 4 · 2023-06-28T04:36:15.000Z

注释掉model.hf_device_map['transformer.output_layer'] = model.hf_device

注释掉就199行报错

Answer 5 · 2023-06-28T04:58:00.000Z

我也两块3090，去掉后却是显示爆内存了
OutOfMemoryError: CUDA out of memory. Tried to allocate 508.00 MiB (GPU 0; 23.70 GiB total capacity; 22.82 GiB already allocated; 202.81 MiB free; 22.82 GiB reserved in total by
PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

Answer 6 · 2023-06-28T05:29:13.000Z

model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding']
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map)

这两行不能去掉，不然多卡可能报错。

不去掉你们是报啥错呢？

Answer 7 · 2023-06-28T06:02:44.000Z

大佬您好~不去掉的话，就是最上面的错如下图，当然，这个错我是单卡跑的，因为1卡其他人在用现在

Answer 8 · 2023-06-28T06:59:39.000Z

model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding']
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map)

这两行不能去掉，不然多卡可能报错。

不去掉你们是报啥错呢？

CUDA_VISIBLE_DEVICES=1,2,3 设置0开始,不报错,但是内存满

Answer 9 · 2023-06-28T07:03:20.000Z

model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding']
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map)
这两行不能去掉，不然多卡可能报错。
不去掉你们是报啥错呢？
CUDA_VISIBLE_DEVICES=1,2,3 设置0开始,不报错,但是内存满

是的是的太对了我也是

Answer 10 · 2023-06-28T07:06:39.000Z

model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding']
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map)
这两行不能去掉，不然多卡可能报错。
不去掉你们是报啥错呢？
CUDA_VISIBLE_DEVICES=1,2,3 设置0开始,不报错,但是内存满
是的是的太对了我也是

batch_size 设置1,就不暴漫了

Answer 11 · 2023-06-28T07:16:01.000Z

shenmadouyaowen

单独1么，占多少显存

Answer 12 · 2023-06-28T07:16:55.000Z

shenmadouyaowen

单独1么，占多少显存

17 G以上,基本没有什么问题,都是我们没有看代码直接使用造成的原因

Answer 13 · 2023-06-28T07:24:07.000Z

太对了我也是

wc太牛了我q2547800285求老哥帮助

Answer 14 · 2023-06-28T07:25:26.000Z

h_size 设置1,就不暴漫了

我单独一还报错擦

Answer 15 · 2023-06-28T07:43:40.000Z

h_size 设置1,就不暴漫了

我单独一还报错擦

我也是小菜鸡,我建议你修改一下tokenize.sh 的--max_seq_length 2000 后面数字修改小点,然后修改train.sh的per_device_train_batch_size 10 后面数字小点再试试

Answer 16 · 2023-06-28T07:49:10.000Z

h_size 设置1,就不暴漫了

我单独一还报错擦

我也是小菜鸡,我建议你修改一下tokenize.sh 的--max_seq_length 2000 后面数字修改小点,然后修改train.sh的per_device_train_batch_size 10 后面数字小点再试试
老哥最后的显卡这里是这样么CUDA_VISIBLE_DEVICES=0,1 （我发现1号他用的显存多，现在1号卡其他人在用（只有7gb显存），我怀疑是这个问题）

Answer 17 · 2023-06-28T07:50:34.000Z

h_size 设置1,就不暴漫了

我单独一还报错擦

我也是小菜鸡,我建议你修改一下tokenize.sh 的--max_seq_length 2000 后面数字修改小点,然后修改train.sh的per_device_train_batch_size 10 后面数字小点再试试
老哥最后的显卡这里是这样么CUDA_VISIBLE_DEVICES=0,1 （我发现1号他用的显存多，现在1号卡其他人在用（只有7gb显存），我怀疑是这个问题）

如果你只用0显卡就设置CUDA_VISIBLE_DEVICES=0就行,1就不要用了

Answer 18 · 2023-06-28T08:06:56.000Z

能跑了，单卡的话可以注释这两行
# model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding']
# model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map)
如果多卡，应该就不要（我还没试）

目前我是把--max_seq_length 2000改为200，然后0卡单跑，per_device_train_batch_size更是可怜的1，15g作用显存占用

Answer 19 · 2023-06-28T08:34:27.000Z

能跑了，单卡的话可以注释这两行 # model.hf_device_map['transformer.output_layer'] = model.hf_device_map['transformer.embedding'] # model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device_map=model.hf_device_map) 如果多卡，应该就不要（我还没试）

目前我是把--max_seq_length 2000改为200，然后0卡单跑，per_device_train_batch_size更是可怜的1，15g作用显存占用

为啥我单卡把这两行注释了还是报错119行，大佬

Answer 20 · 2023-06-28T08:36:09.000Z

行注释了还是报错119行，大佬
我的改动就刚才说的这么多，你看看你和我有其他改动区别不

Answer 21 · 2023-06-29T01:25:11.000Z

各位大佬，我按照你们改的最后又出现了这个错误

RuntimeError: "addmm_impl_cpu_" not implemented for 'Half'
有什么可以解决的办法吗

Answer 22 · 2023-06-29T02:30:46.000Z

ror: "addmm_impl_cpu_" not implemented for 'H

没见过这个错