OOM
yuanjun1991 opened this issue · 1 comments
yuanjun1991 commented
你好,我在训练模型时会遇到模型在训练中途被终止的问题,我的batchsize设置的比较小只有2,预训练模型是Bert_tiny。为了排查这个问题,对模型训练的过程中打了日志,发现老是在eval过程中的util.decode过程中开始卡住,然后CPU利用率一直慢慢上升,直到100%,然后进程被卡住,作者在训练过程中有遇到这个问题吗?
ljynlp commented
模型在训练不充分时,预测结果在最坏情况下可能会把所有可能的实体都解码一遍,此时可能存在OOM的情况。可以观察一下解码前模型的预测结果是不是出现了这样的情况,然后可以尝试多训练几个epoch后再解码,或者尝试在解码时循环大于一定次数后直接break。