模型训练中内存问题
yuanjun1991 opened this issue · 1 comments
yuanjun1991 commented
你好,我训练模型时用768维的BERT,只用最后一层权重,主GPU的内存会打满,然后程序被强制killed,换成另一个维度较小的模型则可以正常训练,这个模型很吃内存吗?你训练的时候预训练模型是哪个?硬件什么配置?
ljynlp commented
你好,我们使用的配置文件就在config
文件夹里,该模型因为需要在2维平面上进行卷积,因此显存占用是$n^2$的,输入文本越长占用越大。我们一般使用RTX3090(24G)或者V100(32G)进行训练。