zhongyy/Face-Transformer

关于遮挡鲁棒性 About occlusion robustness

Opened this issue · 4 comments

有些工作指出Transformer在图像分类上,就算扣掉很多像素,也能有很好的精度,远超CNN。
为什么你们的实验结果表明,Transformer在人脸识别任务上遮挡鲁棒性不如CNN呢?
可以解释一下吗?

可以分享相关的论文吗?我学习一下。

Intriguing Properties of Vision Transformers,之前看到的是这篇论文。
另外想问一下你们做遮挡人脸实验的时候,训练时没有加遮挡,只有测试的时候才会加遮挡对吧?

Intriguing Properties of Vision Transformers,之前看到的是这篇论文。 另外想问一下你们做遮挡人脸实验的时候,训练时没有加遮挡,只有测试的时候才会加遮挡对吧?

嗯嗯,是的,只有测试时加遮挡。

另外还想请教一下,
(1) 使用adamw优化器的时候是如何找到合适的学习率的?
(2) 我的做法是训练8000step, 然后看哪种学习率设置在LFW,CFP-FP测试集的准确率最高. 因为资源受限, 没办法全部训练完比较最后的准确率, 这种寻找学习率的方式合理吗?