fanrena/DPT

关于论文中图2的selector

Closed this issue · 4 comments

作者你好,我对你这篇优秀的论文十分感兴趣。然而我对图2的selector如何运作的并不是很清楚?是通过zero-shot 的Text和Image Encoder之间的相似度来筛选Text Prompt Feature?
如果你有空,不知道方便简单阐述下这个Selector方法?并且指出Selector对应的代码位置。
十分感谢你的帮助。 Thanks♪(・ω・)ノ

是通过zero-shot 的Text和Image Encoder之间的相似度来筛选Text Prompt Feature?
是的,这基本上就是Selector的完美总结。Selector会筛选前K个相似度最高的Text Prompt Feature作为下一步的输入。代码在这里,一直到第543行。如果没有什么额外的问题,我要关掉这个issue了,如果还有问题的话欢迎随时重新打开这个issue。

能简单说下用相似度来来筛选Text Prompt Feature的动机和理由吗?比如有人将zero-shot 的Text和Text Prompt Feature做相似度之后挑选相似度高的Text Prompt Feature是因为想保持clip带来的通用知识能力。相比而言,作者你这里更为复杂一点,加入了zero-shot 的Image Encoder,这么做的idea是因为什么呢(*❦ω❦)

能简单说下用相似度来来筛选Text Prompt Feature的动机和理由吗?比如有人将zero-shot 的Text和Text Prompt Feature做相似度之后挑选相似度高的Text Prompt Feature是因为想保持clip带来的通用知识能力。相比而言,作者你这里更为复杂一点,加入了zero-shot 的Image Encoder,这么做的idea是因为什么呢(*❦ω❦)

我们这篇工作是从模型是否能关注到合适的区域的角度出发的,我们认为模型对任务前景相关的区域关注度越高,对模型的效果好处越大。所以我们想从图片中获得更多有益的任务相关的信息来作为prompt来提示模型,CAVPT就基于这样的信念被设计出来,而作为获得图片中有益的任务相关信息的query,最好也是任务相关的。最后,我们选择了text prompt feature作为这个query来获取图片中的有益信息。

值得一提的是我们这篇文章并不关注保存CLIP的泛化能力,只关注与在可见的下游任务上的性能提升。

非常感谢你的回答,期待你更好的成果Thanks♪(・ω・)ノ