Closed this issue 4 years ago · 1 comments
如题,请问是否有一些不公平?
我们在文章中首先证明了和baseline相同学习率的grafting是有效的, 然后发现使用不同学习率(包括不同初始学习率和不同batch学习率(即coslr))可以增大差异性,因此注明后面都使用了不同学习率. imagenet实验需要的GPU和时间比较多,因此baseline使用的是官方设置,grafting使用的是我们认为较好的不同学习率设置. 不过没有完全保持超参数一致,可能确实有些不公平.大家有兴趣可以自己做实验对比一下.