Meituan-AutoML/Twins

训练总是卡住

pawopawo opened this issue · 3 comments

训练几个epoch,程序总是卡住。某个gpu的利用率变成0,另外7的gpu利用率变成100。 程序不往下运行了,而且也不报错。

能否告知哪个模型?完全按照论文给的超参训练么

估计因为分的patch太多了 在ws=1的时候会卡主 计算量太大

估计因为分的patch太多了 在ws=1的时候会卡主 计算量太大

输入的分辨率多大。你看下代码,ws=1的含义

根据你描述的卡住,更像是某个GPU上NAN了,导致其他GPU block