在计算self-attention时为什么可以用频域元素的逐点乘积替代?
tanbuzheng opened this issue · 2 comments
tanbuzheng commented
作者您好,对于采用频域特征的逐点乘积替代空间域计算attention的矩阵乘法,您能否提供进一步的解释或证明?关于这一点,我感到有些疑惑。
kkkls commented
抱歉由于前段时间在赶ddl的原因回复的比较慢,这两者并不是完全等价的,只是一种近似
tanbuzheng commented
感谢回复,还想问一下,您有利用实验或是数学推导证明过这种近似关系么?