关于论文中的数据结果计算疑问
CongYep opened this issue · 10 comments
另外,我没有看到代码中有关于AUC的计算,你用的是网络输出的掩码预测概率值和Gt进行计算AUC的吗?
1和2:表3和4都是在假图上测试的,因为真图的F1没有意义。你也提到了这一点,同类问题可以参考这个回答的第三点:#4
特别需要指出的是,表4的训练是真图假图都用了。而表3只用了假图训练,减少开销。
-
对的,本文是先逐张计算F1和AUC后根据图片取平均的。我见过有一些论文会将整个数据集的全部pixel一起算混淆矩阵,然后再算对应的F1和AUC,对于IML这个黑色区域明显偏高的任务,这会使得指标虚高。
-
对的,AUC是用概率map而非二值mask算的,这和F1先threshold 0.5的处理方式不一样。那部分代码是一位同学完成的,他最近比较忙还没整理出来,会整理好后上传。
希望能帮到你,如果喜欢可以给个star 🤗
还有就是你截这张图可能不是我们arxiv上最新的论文version。CASIA 0.734的F1是需要48G显存开batchsize 4 训练得到的,我们在最新的version调整成了低一些的结果来和其他model进行fair comparison,后续论文revise的时候应该会显式说明这一点,请保持关注。这一点也在上述引用的issue #4 中某一个Comments的结尾提到了
感谢作者的详细回复,已经STAR了。
还有一个问题,表6中的AUC结果是否可以和表4最后一行F1是否是相同的训练和测试?(是不是可以合并在一起看结果?)
为什么不把表4、表5、表6合并到一起这样方便比较性能?
表6确实可以和表4合在一起,诚然是因为这个领域目前大家开源的也很少,比较的时候只能和大家论文里report的数值比较。(如果复现的结果比原paper低也说明不了啥)。导致论文里没写的只能留空,然后基本就是很少有论文同时在比sota的时候report F1和AUC,所以为了表格不显得很空,就把表4、5、6拆开了。 表5还有个原因是他们用了很大的私有预训练数据集,我们觉得这个点还是要指明的。
诚然,我们认为AUC对这个任务的评价并不那么重要,因为过多的负例会给AUC的分类带来很大的偏差(AUC会觉得很多区域都预测的不错,但其实就只是输出全黑的区域),使得指标虚高,所以我个人倾向于减少AUC在论文中的比重(但是该比还是要比)。
可能后续revise会考虑整理下这个表格吧,也感谢你的建议。
以及...目测还没star哦 (狗头保命)
已STAR,建议可以增加IOU指标
感谢感谢!
话说,近期有论文report这个指标么,可以给个reference么?我最近看的好像都没怎么report IOU这个信息,谢谢啦!方便的话我们会单独测一份的。
https://github.com/HighwayWu/FOCAL
当今SOTA,FOCAL,希望你可以超越他们的性能