JianshuZhang/WAP

question about mask on feature map

Opened this issue · 1 comments

您好张老师:
在feature map 上面打掩码是必须的吗? 我看到有些模型没有这么做? 所以想问问您对此的理解和看法.
从代码上来看, 在计算attention权重的时候对图片pad的几何位置打了mask,这样在最终计算注意力权重的时候,被mask的位置被人为的抑制, 我想您可能是想使用一种局部的注意力机制,不是global的计算而是局部local的方式去计算注意力权重。我对这个的mask作用有些疑问,请问您是否做过对比实验, 一个有mask, 一个没有mask, 模型性能如何??

这个mask是为了除掉padding的影响,希望model有padding和没padding一样。不是所有的work都这么搞,我看到有的paper就把图片居中然后就不管padding了。张大佬没有normalize height但有的work normalize了.Handwritten Mathematical Expression Recognition via Paired
Adversarial Learning 这篇就没怎么管padding还normalize了height.

其实我觉得张大佬搞batch的code粗糙了些。。这个东西优化下可能能提分。但这种提分对出paper也没啥用