mindspore-lab/mindyolo

[yoloV8 n 单机8卡训练耗时问题]

Closed this issue · 6 comments

一、问题表现
1、单机单卡训练时间正常

2、单机8卡训练卡住在图编译阶段-耗时严重,最后导致建链超时(默认静态模式)
拉起命令: mpirun --allow-run-as-root -n 8 python train.py --config ./configs/yolov8/yolov8n.yaml --device_target Ascend --data_dir /home/code/coco --is_parallel True

image

3、单机8卡训练(修改计算图为动态模式) - 可以迭代,但迭代数据较慢。
image

4、同环境上训练densenet121模型单机8卡训练正常。
image

可以使用MindSpore 2.2.12.B010版本

或者之前的一些可以使用的版本进行提供也可以的, 我整体更换一下

版本建议可以跟readme中的一致,另外mindspore的安装包均可以在官网上获取到哈
https://www.mindspore.cn/versions

如果是编译太慢导致的超时问题可以尝试调整这个环境变量设置超时时间,单位为 秒
export HCCL_CONNECT_TIMEOUT=7200