HVision-NKU/SRFormer

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

wuyoutaotao opened this issue · 9 comments

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

i have met the same problem

Hello, could you provide more information? meeting this error when training, testing or other situation? I guess you may set the gpu numbers different with your machine.

Hello, could you provide more information? meeting this error when training, testing or other situation? I guess you may set the gpu numbers different with your machine.

加个微信方便不

当然方便的,不过在issue里解决问题可以帮助到更多人,运行了哪个命令导致了错误呢?比如运行训练指令,默认的训练指令制定了4个GPU,如果你的机器不是4个GPU,可能会报错。
./scripts/dist_train.sh 4 options/train/SRFormer/train_SRFormer_SRx2_scratch.yml
另外,我们的代码基于basicsr,关于bascisr的使用,有很详细的中文文档
https://github.com/XPixelGroup/BasicSR-docs

当然方便的,不过在issue里解决问题可以帮助到更多人,运行了哪个命令导致了错误呢?比如运行训练指令,默认的训练指令制定了4个GPU,如果你的机器不是4个GPU,可能会报错。 ./scripts/dist_train.sh 4 options/train/SRFormer/train_SRFormer_SRx2_scratch.yml 另外,我们的代码基于basicsr,关于bascisr的使用,有很详细的中文文档 https://github.com/XPixelGroup/BasicSR-docs

好的谢谢你,我确实没有改4这个位置,我运行成功了再来回复你

想问一下你们最终解决这个问题了么,以及如何解决的?我也遇到了这个问题,一摸一样,多次重新安装环境之后仍旧未能解决!

想问一下你们最终解决这个问题了么,以及如何解决的?我也遇到了这个问题,一摸一样,多次重新安装环境之后仍旧未能解决!
你好,可以详细叙述一下问题吗?运行的命令是什么?

我进行了多次尝试之后,最终重新复制了之前可跑的环境,然后安装相关以来解决了。但是我因为是在另一个项目中也遇到了这个问题,不知道这个项目可以解决不,明天去试一下

当然方便的,不过在issue里解决问题可以帮助到更多人,运行了哪个命令导致了错误呢?比如运行训练指令,默认的训练指令制定了4个GPU,如果你的机器不是4个GPU,可能会报错。 ./scripts/dist_train.sh 4 options/train/SRFormer/train_SRFormer_SRx2_scratch.yml 另外,我们的代码基于basicsr,关于bascisr的使用,有很详细的中文文档 https://github.com/XPixelGroup/BasicSR-docs

好的谢谢你,我确实没有改4这个位置,我运行成功了再来回复你

您好请问你解决了吗