erichuazhou opened this issue 2 years ago · 0 comments
DataManager.py中的DataManager:padding()里面的实现有点问题,如下: src = [self.tokenizer.cls_token_id] + src + [self.tokenizer.pad_token_id]*pad_size + [self.tokenizer.sep_token_id]
[sep]应该是在[pad]的前面。这样会导致 attention_mask中的mask=1覆盖[pad]。从而在求loss的时候,会计算[pad]的损失。 @wzzzd @wzzzd