训练总是卡住

Question

pawopawo opened this issue 3 years ago · 3 comments

训练几个epoch，程序总是卡住。某个gpu的利用率变成0，另外7的gpu利用率变成100。程序不往下运行了，而且也不报错。

Answer 1 · 2021-11-01T00:51:05.000Z

能否告知哪个模型？完全按照论文给的超参训练么

Answer 2 · 2021-12-10T05:08:51.000Z

估计因为分的patch太多了在ws=1的时候会卡主计算量太大

Answer 3 · 2021-12-15T00:50:18.000Z

估计因为分的patch太多了在ws=1的时候会卡主计算量太大

输入的分辨率多大。你看下代码，ws=1的含义

根据你描述的卡住，更像是某个GPU上NAN了，导致其他GPU block