关于注意力分支的问题

Question

关于注意力分支的问题

Opened this issue 2 years ago · 2 comments

您好，在看完您的文章后，我有一些不清楚的地方想向您请教一下，Attention Branch中使用的是通道-空间注意嘛？为什么我只能看到的是空间注意力机制。还有就是我不清楚，注意力机制的最后一步，为什么又加了一个卷积，K4的作用是什么呢？我的问题可能比较基础，希望您有空的话，可以解决一下我的疑惑。谢谢您的指教。

Answer 1 · 2022-04-02T06:52:01.000Z

关于注意力机制的问题，文中描述是这样的：

channel attention generates a 1D (R^{C×1×1}) channel-wise attention vector,
spatial attention generates a 2D (R^{1×H×W}) attention mask,
channel-spatial attention generates 3D (R^{C×H×W}) attention map

spatial attention 指的是只在 H 和 W 维度，不包含 channel 维度，而代码中是包含 channel，每一个像素都有单独的权重，因此是 channel-spatial attention

Answer 2 · 2022-04-02T07:38:23.000Z

关于注意力机制的问题，文中描述是这样的：

channel attention generates a 1D (R^{C×1×1}) channel-wise attention vector,
spatial attention generates a 2D (R^{1×H×W}) attention mask,
channel-spatial attention generates 3D (R^{C×H×W}) attention map

spatial attention 指的是只在 H 和 W 维度，不包含 channel 维度，而代码中是包含 channel，每一个像素都有单独的权重，因此是 channel-spatial attention

好的，明白了谢谢您的解答。我还想向您请教一下，在完成注意力之后，为什么又进行了一次卷积操作，只是为了增加网络深度吗？我没太明白这个卷积操作的意义。因为我觉得它的添加，没有遵循控制变量的原则。注意力和非注意力分支的选择，就有点不公平。