huyi1989 opened this issue 5 years ago · 1 comments
不是太明白在训练lm时为什么要替换错别字,感觉就采用预测mask,就可以获取字级别语义的字向量了,替换了错别字,在进行self-att的时候难道不会提供错误信息造成干扰吗?有点疑惑,望大神们解惑。
关于训练替换随机字符的原因,请参考原BERT论文。