thuml/Debiased-Self-Training

关于梯度反转中max_iter

wangnaihao opened this issue · 1 comments

大佬您好!非常感谢您工作对于我的启发,关于梯度反转中max_iter的大小对于训练结果的影响,还请您指教一下;另外我注意到您之前的回答提到对抗中两个player的balance很重要,请问衡量这个balance有什么标准吗?
感谢!

这其实是对抗网络训练时候的一个常见问题,在我们的方法中,adversarial head的目标是找到与main head在labeled data上一致而在unlabeled data上尽可能不一致的假设,而feature extractor与之对抗,防止worst case的出现。那么在训练的初期,main head的假设本身就是比较差的,例如考虑极端的情况,在刚开始训练的时候这个假设就是接近于uniform,这时候adversarial head找到的worst case实际上不具备什么指导意义,如果adversarial head的能力太强,就会误导feature extractor

这种平衡有一些标准,主要是在GAN的研究中,例如参数和梯度的一些性质。我个人认为目前这还是一个比较open的问题,两个player的网络参数量、表达能力、以及优化的loss的难易都会有影响,在我们的问题中我发现开始训练的时候feature extractor会比较弱,因此增加了一个warmup过程