zgcr/SimpleAICV_pytorch_training_examples

训练问题

blankspace415 opened this issue · 5 comments

你好再次来打扰你了 我在训练时候train.info.log中反馈的是训练到8700轮不给反馈信息了
2021-12-03 15:46:39 - train: epoch 0001, iter [08200, 58633], lr: 0.000100, total_loss: 0.4340, cls_loss: 0.2691, reg_loss: 0.1649
2021-12-03 15:47:37 - train: epoch 0001, iter [08300, 58633], lr: 0.000100, total_loss: 0.6410, cls_loss: 0.4634, reg_loss: 0.1775
2021-12-03 15:48:35 - train: epoch 0001, iter [08400, 58633], lr: 0.000100, total_loss: 0.5121, cls_loss: 0.2628, reg_loss: 0.2494
2021-12-03 15:49:28 - train: epoch 0001, iter [08500, 58633], lr: 0.000100, total_loss: 0.4244, cls_loss: 0.2080, reg_loss: 0.2165
2021-12-03 15:50:28 - train: epoch 0001, iter [08600, 58633], lr: 0.000100, total_loss: 0.5233, cls_loss: 0.3370, reg_loss: 0.1864
2021-12-03 15:51:25 - train: epoch 0001, iter [08700, 58633], lr: 0.000100, total_loss: 0.9907, cls_loss: 0.6687, reg_loss: 0.3220
而且也没有生成权重 训练几次都是在这个地方卡主了 不知道是该继续训练还是哪里需要改动
请问这是怎么一回事呢

用的是您的预训练的权重resnet50_retinanet_resize800_coco-epoch12-mAP0.355.pth
和resnet的预训练权重resnet50-epoch100-acc76.512.pth

zgcr commented

看看你的训练进程是不是自己卡住了或者被人杀掉了,不是的话,把train_loader的 pin_memory设为False

我改了一下还是不行 而且我是云平台3080ti跑的 64g内存应该够吧 也不知道哪里有问题了。。

zgcr commented

我改了一下还是不行 而且我是云平台3080ti跑的 64g内存应该够吧 也不知道哪里有问题了。。

你好,建议还是检查下自己的机器和配置环境,你这个问题之前从来没有遇到过。。。

我用3090跑400 batch设置大一点 发现只要每轮迭代次数少于8700轮就不会报错了 。。暂时可以训练了