训练时遇到的问题
webe0 opened this issue · 8 comments
webe0 commented
我的电脑是单3080的,在安装完配置文件和pt文件后,在终端运行sample.py文件,即python -m torch.distributed.launch --nproc_per_node=1 sample.py --dataset MVTec-AD,出现了端口错误:The client socket has failed to connect to [wang-pc]:29500 (system error: 10049 - 在其上下文中,该请求的地址无效。).,请问如何解决
cnulab commented
你好!
您遇到的错误我也不知道具体是什么原因导致的,它与你的系统和软件环境有关。你可以试试使用其他端口运行:
python -m torch.distributed.launch --nproc_per_node=1 --master_port='29501' sample.py --dataset MVTec-AD
webe0 commented
问题已解决,可能是分布式的问题,我把有关分布式的代码rank,world_size等注释成单卡,终端输入python sample.py --dataset MVTec-AD,就可以运行了,谢谢
Joey-working commented
你好!请你你出现问题时,是因为要联合两台主机训练吗?