训练报错
zkh123456789 opened this issue · 1 comments
zkh123456789 commented
作者您好,训练到中间报错,报了TypeError: cannot pickle 'torch._C_distributed_c10d.ProcessGroup' object
看上去应该是分布式的原因 请教一下是什么原因造成的
zkh123456789 commented
问题已解决,我把CUDA升级为12.2,把pytorch降级到1.13.1,就不会报错了,这个方案希望对后来的朋友们能有所帮助,再次感谢作者做出的突出的贡献~