datawhalechina/team-learning-nlp

【bug】情感分析task01-中英文翻译不匹配

yuanyihan opened this issue · 1 comments

task01中有一句话:当我们将句子输入我们的模型时,我们一次输入一个_batch_,并且批次中的所有句子都需要具有相同的长度。 因此,得设置一个maxlength,为了确保批次中的每个句子的大小相同,填充任何短于maxlength的句子,填充得部分设置为0,大于maxlength的部分直接截取。
我们参考英文,原文是:When we feed sentences into our model, we feed a batch of them at a time, i.e. more than one at a time, and all sentences in the batch need to be the same size. Thus, to ensure each sentence in the batch is the same size, any shorter than the longest within the batch are padded.

两者有略微区别,为了验证这个思路,我对原始model,做了一些改进:
image
然后看他们的打印:
image
我们看出来,第一维是seq_len是可以变的,这也是为啥时间序列第一维不是batch_size...【刺激~~~】

更深入的打印,在batch_size=4时,打印结果:
image

我以为是中英文差异