/distributed_train_pytorch

pytorch分布式训练,支持多机多卡,单机多卡。

Primary LanguagePythonApache License 2.0Apache-2.0

项目说明

pytorch分布式训练

环境

  • torch==1.7.1

  • python3.6.9

单机器多卡

sh train.sh 0 1 # 需要将里面的ip和端口号设置为自己机器的ip

多机器多卡

A机器运行

sh train.sh 0 2

B机器运行

sh train.sh 1 2

采坑记录

  • 两台机器的torch版本需要保持一致,我在实验过程中,一个使用torch1.2,一个使用1.7,导致两台机器跑不起来,之后都换成1.7之后才成功。

  • 主机器的node_rank必须为0

最后

  • 您的小星星将是对我最大的鼓励,谢谢!