mask padding问题
Closed this issue · 0 comments
Vincenzoee commented
现在你们将sequence_length这一维度投影到d_model。那么我在输入到注意力机制里时sequence里面有部分该被掩码我该怎么处理,mask padding矩阵该怎么设计,mask padding矩阵的维度还是[batch_size, sequence_length]吗?
Closed this issue · 0 comments
现在你们将sequence_length这一维度投影到d_model。那么我在输入到注意力机制里时sequence里面有部分该被掩码我该怎么处理,mask padding矩阵该怎么设计,mask padding矩阵的维度还是[batch_size, sequence_length]吗?