关于复现模型训练
Sean082408 opened this issue · 5 comments
Sean082408 commented
hzwer commented
80个gpu小时
启动命令是 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1
可能还需要把 train.py 中的 worker 改小
Sean082408 commented
JasonChen925 commented
同问,单GPU在输入 python3 -m torch.distributed.launch --nproc_per_node=1 train.py --world_size=1时总会报错,我的设备是3070,ubuntu22.04,不知道有没有单GPU训练模型成功的前例
hzwer commented
可能得尝试把所有 distributed 相关内容去掉 🤦