sstary/SSRS

RS^3Mamba: 想问一下数据的问题

Closed this issue · 15 comments

我发现您引用的对比方法的数据跟原论文不太一致,有的比原论文低,想问一下审稿人如果问这个问题该怎么回答呢,比如这四个方法:
image
Unetformer原论文结果是82.7
image
但是对比方法里是81.97,其他几个方法貌似也有类似的情况,如果我到时候引用论文是否也应该引用原论文,但是数据放您的数据

你好,这应该是一种普遍情况。因为每个实验室的设备情况不一致,在设置实验的时候,数据集训练-测试集的划分,batch size,总训练次数等,都会影响最佳性能,因此一般都会在文章中声明,本文使用的所有方法,得到的结果来自于同一种实验环境,参数设置。
另外,实际上,很多文章你也无法复现出和原文报告的一样的性能。因此,我们一般都以自己的实验结果为准,这也是具有说服力的。
所以,你引用方法原文是没问题的,使用我们的结果,那么也需要你自己跑的实验,是在我这个超参数下得到的就好了。

如果对你有帮助,请点个star。

如果你需要可视化图像的话,可能就需要,如果只是指标,可以不需要。我这里指的是,如果你要自己设计模型,就需要按照我们这个参数跑,这样能保证尽可能的公平。

如果你需要可视化图像的话,可能就需要,如果只是指标,可以不需要。我这里指的是,如果你要自己设计模型,就需要按照我们这个参数跑,这样能保证尽可能的公平。

感谢解答

您好,我对照代码时发现代码里Unetformer结构中的辅助头您没有使用,也就是论文里跑出来的Unetformer结果是没有辅助头的结果,而Unetformer原文是有辅助头结构的,想问一下为什么要去掉辅助头做实验呢,论文里其他对比方法是否也进行了对网络结构的删减呢,我在写实验对比的时候突然发现了这个问题,我不知道如何解释,求解答疑惑,还有数据集选择方面,使用loveda里的urban而不是使用整个loveda是因为为了强调城市里的语义分割吗,因为我看其他论文用整个loveda的比较多,导致写对比实验的时候对loveda urban需要自己做实验跑结果,以上是我的疑惑,希望您能百忙之中抽空解答一下

你好,首先辅助头这个问题,这个辅助头并不是unetformer的核心设计,其核心是GLTB模块,这种辅助头是一种广泛使用的技术,同样也可以用到我们的方法上。个人认为对比实验并不是一定需要与原论文完全一致的,比如说很多文章根本没有开源,这种情况下就只能自行构建其核心模块,除此之外,方法对比应该是在尽可能公平的情况下进行对比,只要能说明核心设计的优势,细节的trick并不是重点,再举例,难道说别人的方法,我们也需要与其原文一样使用完全一致的图像增强技术吗?肯定是不用的。

ISPRS和loveDA数据集我们都只选择了其中一部分,Potsdam没选上因为它太大了,loveda完整数据集也太大了,其中Rural没选是因为rural类别分布更为不均衡,我们仅用Urban也足以说明我们方法的效果。

我觉得你不能以别人论文的实验作为你自己的结果,在CV领域还好,但是遥感领域,这样不是很好,因为很多文章不开源,你后面绘制对比方法可视化结果时是需要各种方法的预测图的,如果不自己跑,你该如何绘制呢?此外,很多文章的结果是难以复现的,如果你直接以其原文的结果为准,那么你可能根本跑不出更好的结果,在这种情况下,你的有效的设计,可能都被你以为是无效的。因此,我个人建议,你最好积累自己的实验结果。

核心是因为遥感领域并没有一个公开的榜单,你看到unetformer的数据很多是原论文,那是因为很多都是他们团队的。你只要以你自己的结果为准就好了。

Vaihingen数据集的设置我们是遵循一开始接触这个领域时看的文章:vFusenet,所有后续研究也就按照这个设置来了。
trick这些不用专门描述的,文章其实主要看创新点,性能只是一个辅助证明的。

Excuse me. I'm a newer in remote sensing segmentation, and I feel alittle confuse by your previous explanation.
I am curious about the mIoU of the ISPRS Potsdam dataset because it seems to be one of the most popular datasets. However, I'm sad that I cannot evaluate its accuracy from previous works.E.g., it is reported to be ~86% in UNetformer, while some other papers report only 75+point. Where does such a large difference come from? Could this be explained by fluctuation?
Also, is visualization necessary in the remote sensing community? As we know that in the CV field, numerical descriptions is usually sufficient. And when the public weights are not available, where do the visualization results come from? Do I need to train each model from scratch?
Would you like to give me some suggestion? Thanks a lot.

  1. Due to the late publication of the Potsdam test dataset, the existing methods often adopt different dataset settings, that is, the number of images in the dataset itself. You can confirm this by checking the partitioning of the dataset. Secondly, miou will be affected by various factors such as model hyper-parameter and image input size. Most importantly, there is no authoritative list in the field of remote sensing. Therefore, we generally set up the same hardware and software environment in our own environment to carry out comparative tests. The resulting miou is reliable and credible. In this case, miou is stable, but may fluctuate under 1%.
  2. As mentioned above, there is no authoritative list in the field of remote sensing, but there is in CV. Therefore, we usually conduct our own comparative experiments and get the visualized results in our own environment. Of course, you can choose some open source models to compare so that you don't have to completely reproduce unknown methods. We also feel the torment of not open source in RS, which is the purpose of creating this open source repository. As far as I know, https://github.com/WangLibo1995/GeoSeg and our repository have opened up many methods at present, and I hope it can help you.

Thanks a lot.

Please give me a star