yeyupiaoling/Whisper-Finetune

训练过程占用显存过高的问题

Closed this issue · 8 comments

你好,我在使用large模型进行微调,之前使用的huggingface的脚本,在单卡上设置batch_size=16 A100 80G的显存也是够的,但是我使用咱们脚本时只能设置batch_size=4 (63G),这部分怎么改进? 多谢

@yeyupiaoling 是这边不正常吗?还是本身就需要这么大的显存?

我batch size=2 时,显存应该是8,9g这样子

试过设置为4吗?

有个前提,我使用的large的模型
batch_size设置成2的时候也需要37G左右(我是8卡并发训练的):
image

你应该是没有开量化8位。

确实如此,改成8位量化,降了5~6倍;改成量化模型后,对模型的整体性能会有多少影响?

还能正常使用ggml工程吗?

可以,我项目中有提供转换ggml模型格式的代码