模型训练GPU利用率
jcl-gx opened this issue · 4 comments
jcl-gx commented
大佬请问一下,在训练大数据集(1000h+)为什么会出现GPU利用刚开始可以跑满,过一下就直接往下掉的情况呀?试了很多方式都解决不了
yeyupiaoling commented
你这个是不是反了,第一个epoch是重短开始训练的,后面的音频是比较长的。
jcl-gx commented
我也不清楚是什么原因,GPU内存会跟epoch逐渐增长,但就是利用率非常低,多卡会存在一张卡利用率接近100,但是功率不到一般,另外的卡接近0,是不是在读数据的时候哪里错了呀,大佬?
yeyupiaoling commented
你看看你的数据列表是不是反了。你用的是最新代码吗?
yeyupiaoling commented
你看下是不是数据表排序的原因,因为第一轮训练是从短到长训练的,后面才是打乱训练的。