关于gpu内存管理

Question

关于gpu内存管理

Closed this issue 10 months ago · 13 comments

博主请问这个模型到底要多大显存才够跑，我租的24g的gpu只能同时挂gpt2、gptj、gptneo这三个模型，再调用llama的时候就会提示内存不够，当时当我用前面三个模型提取特征列表的时候发现根本提取不了一条特征，当我单用钢gpt2提取的时候发现大量的OOM，导致原来100条数据集只能提取出小几十条特征出来

Answer 1 · 2024-03-06T09:36:57.000Z

还有在分好训练测试及后的训练和测试应该给哪些指令啊

Answer 2 · 2024-03-06T10:04:42.000Z

就是目前我只能用gpt2和neo提取到的特征去复现一编然后我修改了上面几处，有没有什么问题啊

Answer 3 · 2024-03-06T10:12:35.000Z

请问你第一个问题中，是把几个模型同时部署在一个gpu上了吗？如果是一个的话理论上是不行的；但是如果是分别部署在4个gpu上那么是可行的。

Answer 4 · 2024-03-06T10:13:39.000Z

整个的运行流程你可以看一下SeqXGPT/SeqXGPT/目录下的README.md

Answer 5 · 2024-03-06T10:14:11.000Z

是的我是同时部署在一个gpu上的，我是租的autodl，可以同时租几个？

Answer 6 · 2024-03-06T10:17:44.000Z

感觉修改成两个之后的代码应该是对的。

Answer 7 · 2024-03-06T10:18:23.000Z

这个我也没用过，但其实你也可以一个模型一个模型的提取特征，之后合并一下文件就行。这样一个gpu也能跑

Answer 8 · 2024-03-06T10:22:13.000Z

谢谢
在训练测试的时候给哪些指令啊

这样好像不行

Answer 9 · 2024-03-06T10:23:54.000Z

训练你就直接跑
# train
这行注释下面的这个命令就行。

Answer 10 · 2024-03-06T10:27:30.000Z

他会包这样的错误

Answer 11 · 2024-03-06T10:34:32.000Z

时间太久了有点忘了，刚刚看了下，应该是你没有传路径进去，你可以在命令行中--train_path设置一下，或者你在train.py文件夹下，有个parse_args()函数，原本一些固定的参数我就默认在里面设置了，你也可以在这里设置默认值。

Answer 12 · 2024-03-06T14:48:33.000Z

十分感谢！

Answer 13 · 2024-03-10T12:37:57.000Z

不客气啦~~