Jihuai-wpy/SeqXGPT

关于gpu内存管理

Closed this issue · 13 comments

博主请问这个模型到底要多大显存才够跑,我租的24g的gpu只能同时挂gpt2、gptj、gptneo这三个模型,再调用llama的时候就会提示内存不够,当时当我用前面三个模型提取特征列表的时候发现根本提取不了一条特征,当我单用钢gpt2提取的时候发现大量的OOM,导致原来100条数据集只能提取出小几十条特征出来
image

image
还有在分好训练测试及后的训练和测试应该给哪些指令啊

image
image
image
就是目前我只能用gpt2和neo提取到的特征去复现一编 然后我修改了上面几处,有没有什么问题啊

请问你第一个问题中,是把几个模型同时部署在一个gpu上了吗?如果是一个的话理论上是不行的;但是如果是分别部署在4个gpu上那么是可行的。

整个的运行流程你可以看一下SeqXGPT/SeqXGPT/目录下的README.md

是的 我是同时部署在一个gpu上的,我是租的autodl,可以同时租几个?

感觉修改成两个之后的代码应该是对的。

这个我也没用过,但其实你也可以一个模型一个模型的提取特征,之后合并一下文件就行。这样一个gpu也能跑

谢谢
在训练测试的时候给哪些指令啊
image
这样好像不行

训练你就直接跑
# train
这行注释下面的这个命令就行。

image
他会包这样的错误

时间太久了有点忘了,刚刚看了下,应该是你没有传路径进去,你可以在命令行中--train_path设置一下,或者你在train.py文件夹下,有个parse_args()函数,原本一些固定的参数我就默认在里面设置了,你也可以在这里设置默认值。

十分感谢!

不客气啦~~