SunnyHaze/IML-ViT

表5的完整性

Closed this issue · 3 comments

PixPin_2024-03-19_11-56-06

这里只测试了一个数据集,请问能和之前的方法对齐,也测试一下NIST、Coverage和IMD数据集吗

您好,感谢您的关注!
表中列举的方法都采用了大量的私有预训练数据集训练后,再在下游数据集上finetune,这带来了“对齐”上一些不公平的问题。我们不希望后续工作过多参考这种范式,因为缺乏可复现性,所以我们全文更多靠近了MVSS-Net的evaluation Protocol(因为该工作基本也是Train from scratch的),而必要的混合数据集的对比我们也在Table 7中予以给出大致也能作为合理参考。

PSCC-Net为例(ObjectFormer follow了他们的split):

  • NIST数据集被随机分成404/160的Train/Test,由于NIST数据集具有大量重复的图片(在此工作有体现)所以这样划分几乎任何网络都会获得极高结果,这在我们的Table 7中也有所体现,但实质上是对于数据集中过于相似的模式过拟合了。
  • COVERAGE同理,只有75/25张的训练数据集对于深度学习方法也极易过拟合,相比之下,ObjectFormer使用了62K级别的IML数据集进行pretrain后再finetune。
  • IMD20数据集虽然有2010张图片,但在PSCC-Net的split中仅仅用作测试,没有用于训练,对于train from scratch的IML-ViT则不可能与该Protocol进行公平比较。

所以综合考虑后,我们仅与这些经过大量私有数据集pre-train的模型比较了CASIA的性能(因为至少CASIAv2有相当数量的图片,而且不像NIST那么容易过拟合),并在Table 7中进行了相对公平,但参考意义更多的比较。并且,现有的train from scratch的工作都没有follow SPAN,ObjectFormer的Protocol进行比较

希望能解决你的问题,也欢迎进一步讨论更合理的evaluation Protocol!祝好!

确实如此。从为数不多的测试集中划分出一部分进行finetune不够合理,但还是有一批工作follow这种模式。感谢您的答复!

是这样的,所以我们给出了表7,通过组合不同数据集的方式一定程度上避免过拟合,这样也可以尽可能的有一个“定性”的比较以供后续工作参考。