关于训练lm的问题

Question

huyi1989 opened this issue 5 years ago · 1 comments

不是太明白在训练lm时为什么要替换错别字，感觉就采用预测mask，就可以获取字级别语义的字向量了，替换了错别字，在进行self-att的时候难道不会提供错误信息造成干扰吗?有点疑惑，望大神们解惑。

Answer 1 · 2019-11-20T01:13:25.000Z

不是太明白在训练lm时为什么要替换错别字，感觉就采用预测mask，就可以获取字级别语义的字向量了，替换了错别字，在进行self-att的时候难道不会提供错误信息造成干扰吗?有点疑惑，望大神们解惑。

关于训练替换随机字符的原因，请参考原BERT论文。