训练过程占用显存过高的问题

Question

Closed this issue 7 months ago · 8 comments

你好，我在使用large模型进行微调，之前使用的huggingface的脚本，在单卡上设置batch_size=16 A100 80G的显存也是够的，但是我使用咱们脚本时只能设置batch_size=4 （63G），这部分怎么改进？多谢

Answer 1 · 2023-10-23T06:57:48.000Z

@yeyupiaoling 是这边不正常吗？还是本身就需要这么大的显存？

Answer 2 · 2023-10-23T07:12:11.000Z

我batch size=2 时，显存应该是8，9g这样子

Answer 3 · 2023-10-24T01:11:26.000Z

试过设置为4吗？

Answer 4 · 2023-10-24T01:24:28.000Z

有个前提，我使用的large的模型
batch_size设置成2的时候也需要37G左右（我是8卡并发训练的）：

Answer 5 · 2023-12-08T10:08:02.000Z

你应该是没有开量化8位。

Answer 6 · 2023-12-12T05:25:40.000Z

确实如此，改成8位量化，降了5~6倍；改成量化模型后，对模型的整体性能会有多少影响？

Answer 7 · 2023-12-12T05:26:14.000Z

还能正常使用ggml工程吗？

Answer 8 · 2023-12-23T07:16:06.000Z

可以，我项目中有提供转换ggml模型格式的代码