hzwer/ECCV2022-RIFE

关于复现模型训练

Sean082408 opened this issue · 5 comments

我想用复现您的模型训练过程,但是您的训练代码是分布式训练的,我只有一台电脑,一个cpu,一个gpu,在使用您的代码训练时,发生了以下错误,请问如何用您的代码进行训练,顺便问下您当初训练了多久?
image

image

hzwer commented

80个gpu小时
启动命令是 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1
可能还需要把 train.py 中的 worker 改小

您好,我尝试在云上的linux和windows上运行train.py代码,会出现以下疑似网络的问题,请问怎么解决呢?
windows报错:
image
linux报错:
image

同问,单GPU在输入 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1时总会报错,我的设备是3070,ubuntu22.04,不知道有没有单GPU训练模型成功的前例

hzwer commented

可能得尝试把所有 distributed 相关内容去掉 🤦