thograce/BGNet

关于多卡训练的问题

Closed this issue · 5 comments

您好,关于多卡的训练,我修改了两处地方,包括如下:
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3"
def train(train_loader, model, optimizer, epoch):
model = torch.nn.DataParallel(model, device_ids=[0, 1, 2]).cuda() #添加
model.train()
[训练后的模型经过测试发现结果全是灰色图,如下
image
想问下您是否知道出了什么问题呢,万分感谢

您好,关于多卡的训练,我修改了两处地方,包括如下: os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3" def train(train_loader, model, optimizer, epoch): model = torch.nn.DataParallel(model, device_ids=[0, 1, 2]).cuda() #添加 model.train() [训练后的模型经过测试发现结果全是灰色图,如下 image 想问下您是否知道出了什么问题呢,万分感谢

你要在主函数112行那里改,不要在train()函数里面加这些代码。

您好,关于多卡的训练,我修改了两处地方,包括如下: os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3" def train(train_loader, model, optimizer, epoch): model = torch.nn.DataParallel(model, device_ids=[0, 1, 2]).cuda() #添加 model.train() [训练后的模型经过测试发现结果全是灰色图,如下 image 想问下您是否知道出了什么问题呢,万分感谢

你要在主函数112行那里改,不要在train()函数里面加这些代码。

您好,关于多卡的训练,我修改了两处地方,包括如下: os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3" def train(train_loader, model, optimizer, epoch): model = torch.nn.DataParallel(model, device_ids=[0, 1, 2]).cuda() #添加 model.train() [训练后的模型经过测试发现结果全是灰色图,如下 image 想问下您是否知道出了什么问题呢,万分感谢

你要在主函数112行那里改,不要在train()函数里面加这些代码。

您好,根据您的提示,我在112行那里改,仍出现相同的问题,以及我根据参考您提供的训练代码修改,仍是如此,想知道是什么问题导致的呢,参数的问题吗还是哪里?谢谢您

您好,根据您的提示,我在112行那里改,仍出现相同的问题,以及我根据参考您提供的训练代码修改,仍是如此,想知道是什么问题导致的呢,参数的问题吗还是哪里?谢谢您

你把微信发送到我邮箱吧,我给你看看代码,thograce@163.com

您好,根据您的提示,我在112行那里改,仍出现相同的问题,以及我根据参考您提供的训练代码修改,仍是如此,想知道是什么问题导致的呢,参数的问题吗还是哪里?谢谢您

大概率是你模型输出的结果没有激活,但我的代码里是有的,你是不是删了什么?建议你把我训练好的模型下载下来后直接运行etest.py,看输出结果是否正常。

其它的地方我是没有改的,我拿单卡训练,测试结果是没有问题的,但一多卡训练,测试出来的结果就是这样