multiheadattention 에서 input과 multihead의 concat 의미가 궁금합니다.

Question

Closed this issue 2 years ago · 0 comments

module.py의 283 라인의
"result = t.cat([decoder_input, result], dim=-1)" 부분은 어느 논문을 참조하신건가요?

저는 저 부분을 안하고 돌렸더니 encoder attention prob 이 대각선 모양이 안나오더라구요 혹시 저 부분을 넣지 않아서일까요?