关于词表没有中文双引号的问题

Question

Dicer-Zz opened this issue 3 years ago · 3 comments

我发现从huggingface上下载的全掩码中文Bert/RoBerta的词表(vocab.txt)中都没有中文的双引号“”，请问为什么会有这种情况呢？

我的下游任务是一个本文纠错的任务，因此当句子中出现中文双引号时，tokenizer会将其变成[UNK]，非常影响纠错结果。有推荐的方法解决这个问题嘛？或许我应该手动在词表中添加中文双引号？

Answer 1 · 2022-06-14T09:08:58.000Z

1）词表用的是谷歌的中文BERT里的版本
2）可以自己在词表最后加新词

Answer 2 · 2022-06-14T11:14:30.000Z

OK，感谢回复

Answer 3 · 2022-06-14T13:03:13.000Z

顺便提醒：如果新加词的话词表会变大，导致词向量矩阵会多出若干列。因此，词向量矩阵的一部分需要加载预训练好的权重，一部分需要自己初始化（对于新加的词）。直接load预训练过的bert可能会导致词向量矩阵大小不匹配导致无法正确初始化。