kkkls/FFTformer

在计算self-attention时为什么可以用频域元素的逐点乘积替代?

tanbuzheng opened this issue · 2 comments

作者您好,对于采用频域特征的逐点乘积替代空间域计算attention的矩阵乘法,您能否提供进一步的解释或证明?关于这一点,我感到有些疑惑。

kkkls commented

抱歉由于前段时间在赶ddl的原因回复的比较慢,这两者并不是完全等价的,只是一种近似

感谢回复,还想问一下,您有利用实验或是数学推导证明过这种近似关系么?