lxtGH/SFSegNets

different classes lie in different groups along channels sparsely

whuhit opened this issue · 3 comments

image

你好,这个图和结论都非常有意思。我想深入了解一下。

We first carry out toy experiments using a pretrained Deeplabv3+ model [12]. We count the pixels on the final normalized feature (512 dimensions before classification) given ground truth masks whose activation values are beyond 0.8. As shown in Fig 1(a), we find different classes lie in different groups along channels sparsely.

请问这个是具体怎么实现的呢?

我根据文章中的说明,自己找了一个别人训练的Deeplabv3+的模型(Cityscapes 上miou为0.72),然后取最后输出层的前面一层特征图,其特征图大小是320x64x128,计算如下:
image

得到的结果是这样的:
image

很多组图的结果都很奇怪,而且不同的图,每一个类别的峰值所在的通道顺序也完全没有规律。请问有更多的计算细节吗?我真的对Fig. 1. (a)的结论非常感兴趣。

lxtGH commented

你好! 感谢关注,我觉得应该是和model的本身有关系。 我这边是用一个stoa的model deeplabv3+,val 可以到80.8 在city上。所以对于这张图的大部分region的结果是对的,加上我们卡了0.8的阈值。特征学好了,特征本身就有聚类的效应,分类就容易很多。
https://arxiv.org/abs/1907.13426 这篇paper给了一些理论的分析。

你好! 感谢关注,我觉得应该是和model的本身有关系。 我这边是用一个stoa的model deeplabv3+,val 可以到80.8 在city上。所以对于这张图的大部分region的结果是对的,加上我们卡了0.8的阈值。特征学好了,特征本身就有聚类的效应,分类就容易很多。 https://arxiv.org/abs/1907.13426 这篇paper给了一些理论的分析。

哈哈,感谢回复。如果只是stoa的分割模型上才能比较好的体现“不同的类分布在不同的通道空间里”,那这个结论的前提条件是不是有点苛刻了😂。我用多组图像去计算的时候,有的图像person的峰值通道在car的前面,有的时候在后面。此外,不同的图计算出来的同一个目标的峰值位置有的时候在channel的前半部分,有的时候在channel的后半部分,这个相对位置也是很不固定的。不知道80.8的deeplabv3+是不是这样的?

最后,stoa的那个deeplabv3+模型有开源地址吗,我想试试是不是性能越好的模型越能体现这样的结果。😄

你好!我对这个通道特征图也十分感兴趣!不知道作者是否可以公开具体的做法呢?例如相应的代码和80.8的deeplabv3+的模型开源地址...