zijundeng/pytorch-semantic-segmentation

mean iu always is 0.03469 not change loss is go down

oujieww opened this issue · 5 comments

i try to train segnet on voc ,i use voc-fcn setting and change lr to 2.5e-4 for bacth one,but the mean_iu is 0.03469 for every epoch, loss is not go down well,
image
image
any one have some idea about this?i want to train segnet on pytorch, thanks !!!

i also print weights during training,at start of training weights is ok, but after ten minutes ,
-124.0657], device='cuda:0')
tensor([ nan, nan, nan, nan, nan, nan,
nan, -2.5257, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, -1.4712, nan,
nan, nan, nan, nan, nan, nan,
-4.3340, nan, nan, nan, nan, 4.7798,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
-0.8140, nan, nan, nan, nan, nan,
0.6231, nan, nan, -0.0830, nan, nan,
nan, -4.2378, nan, nan, nan, nan,
nan, nan, 1.4491, nan, nan, nan,
4.9024, nan, nan, nan, 0.5791, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, -20.1657,
nan, -11.7630, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, 1.4345, -0.6458, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
-7.9436, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
3.2859, nan, nan, -1.8619, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, -14.2636, nan, nan, nan, nan,
nan, nan, nan, -0.2538, nan, nan,
-1.2776, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, 0.8510, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, -0.9666, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, -0.0036, nan,
nan, nan, -0.1890, nan, nan, 1.5491,
nan, nan, nan, nan, nan, nan,
nan, -4.6917, 1.3992, nan, nan, nan,
1.5957, nan, nan, nan, 3.1770, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, -17.7962, -4.8400, nan,
nan, nan, nan, nan, -4.3072, nan,
nan, nan, nan, nan, nan, nan,
nan, -29.6985, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, -1.0487, -4.5289, nan, nan, nan,
nan, nan, nan, nan, nan, 3.7416,
nan, -15.2371, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, -2.3174, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, -3.5160, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, -2.1085,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan, 22.5394, nan, nan, nan,
nan, nan, nan, nan, nan, nan,
nan, nan], device='cuda:0')
tensor([nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.,
nan., nan.], device='cuda:0')
tensor([ -217.5221, 313.2904, 11.4995, 17.0104, 11.9238,
-119.9138, 9.5754, -35.0100, -131.1973, 661.8594,
81.5032, 1125.1177, 123.3179, 346.6497, 474.5578,
-593.2343, 14.8932, 55.6703, 127.7853, 12.4404,
-124.1222], device='cuda:0')

I also encountered this problem. Train loss is always nan if I changed the learning rate, and the value of mean_iu is so small. May I ask if you have solved it yet?

wul93 commented

I also have the same problem, mean iu always is 0.03473, have you solved it?

i remember i use another code , i abandoned this one

wul93 commented

Thanks for your response, I am trying to run other codes.