关于复现模型训练

Question

Sean082408 opened this issue a year ago · 5 comments

我想用复现您的模型训练过程，但是您的训练代码是分布式训练的，我只有一台电脑，一个cpu，一个gpu，在使用您的代码训练时，发生了以下错误，请问如何用您的代码进行训练，顺便问下您当初训练了多久？

Answer 1 · 2024-03-16T17:05:16.000Z

80个gpu小时
启动命令是 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1
可能还需要把 train.py 中的 worker 改小

Answer 2 · 2024-03-22T09:41:47.000Z

您好，我尝试在云上的linux和windows上运行train.py代码，会出现以下疑似网络的问题，请问怎么解决呢？
windows报错：

linux报错：

Answer 3 · 2024-03-25T05:20:53.000Z

同问，单GPU在输入 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1时总会报错，我的设备是3070，ubuntu22.04,不知道有没有单GPU训练模型成功的前例

Answer 4 · 2024-03-25T06:26:54.000Z

可能得尝试把所有 distributed 相关内容去掉 🤦