RuntimeError: Address already in use
AlexKai1 opened this issue · 2 comments
AlexKai1 commented
执行中报错:RuntimeError: Address already in use
原因:TCP 端口被占用。在一台计算机上启动多个作业。您需要为每个作业指定不同的端口(默认为29500)以避免通信冲突
,解决方案是在运行程序时指定端口,并在要执行的PY文件之前任意给出端口号。
解决办法:
增加端口指定参数,66660可修改为自己想要的端口
--master_port 66660
完整命令:
python -m torch.distributed.launch --nproc_per_node=2 --master_port 66660 train.py --pretrained --model_checkpoint ../CDial-GPT_LCCC-large --data_path data/toy_data.json --scheduler linear
silverriver commented
您好,请问直接使用下面这个解决方法问题解决了么?
增加端口指定参数,66660可修改为自己想要的端口
--master_port 66660
AlexKai1 commented
您好,请问直接使用下面这个解决方法问题解决了么?
增加端口指定参数,66660可修改为自己想要的端口 --master_port 66660
解决了