ymcui/Chinese-BERT-wwm

关于词表没有中文双引号的问题

Dicer-Zz opened this issue · 3 comments

我发现从huggingface上下载的全掩码中文Bert/RoBerta的词表(vocab.txt)中都没有中文的双引号“”,请问为什么会有这种情况呢?

我的下游任务是一个本文纠错的任务,因此当句子中出现中文双引号时,tokenizer会将其变成[UNK],非常影响纠错结果。有推荐的方法解决这个问题嘛?或许我应该手动在词表中添加中文双引号?

ymcui commented

1)词表用的是谷歌的中文BERT里的版本
2)可以自己在词表最后加新词

OK,感谢回复

ymcui commented

顺便提醒:如果新加词的话词表会变大,导致词向量矩阵会多出若干列。因此,词向量矩阵的一部分需要加载预训练好的权重,一部分需要自己初始化(对于新加的词)。直接load预训练过的bert可能会导致词向量矩阵大小不匹配导致无法正确初始化。