mask padding问题

Question

Closed this issue 6 months ago · 0 comments

现在你们将sequence_length这一维度投影到d_model。那么我在输入到注意力机制里时sequence里面有部分该被掩码我该怎么处理，mask padding矩阵该怎么设计，mask padding矩阵的维度还是[batch_size, sequence_length]吗？