使用lora微调时遇到的奇怪问题

Question

Closed this issue 9 months ago · 2 comments

我使用A40(40GB)显卡使用20小时的多语言数据集微调large-v2，在使用了LORA之后没有看到显存和速度方面的优化，具体情况如下：

使用lora，加载模型的时候不使用8位，直接oom
使用lora，加载模型的时候的使用8位，需要3.5小时
全参数微调的时候，需要4小时，不过是加了 gradient_checkpointing = True以减少显存消耗，不然也是oom
实测的情况是LORA并不能起到加速训练和减少显存使用。lora训练的时候参数打印是1.35%，不知道大家有没有遇到过。下面是是用来为微调的笔记本：
colab
希望高手指点一下。

Answer 1 · 2023-10-09T09:47:29.000Z

你的全参数微调是怎么做的？用什么项目？

Answer 2 · 2023-10-09T19:03:20.000Z

你的全参数微调是怎么做的？用什么项目？
不加lora就是全参数了。使用notebook在云主机上微调。