fxmeng/filter-grafting

imagenet实验baseline使用step lr,而grafting使用cosine

Closed this issue · 1 comments

如题,请问是否有一些不公平?

我们在文章中首先证明了和baseline相同学习率的grafting是有效的,
然后发现使用不同学习率(包括不同初始学习率和不同batch学习率(即coslr))可以增大差异性,因此注明后面都使用了不同学习率.
imagenet实验需要的GPU和时间比较多,因此baseline使用的是官方设置,grafting使用的是我们认为较好的不同学习率设置.
不过没有完全保持超参数一致,可能确实有些不公平.大家有兴趣可以自己做实验对比一下.