为什么不先做中文分词再预训练？

Question

Closed this issue 5 years ago · 1 comments

想请问一下，你们预训练的bert模型是基于中文字的对吗？为什么不先做刑事/民事文书的中文分词，再预训练？这样效果不会更好吗？想请问一下不这样做背后的原因是什么？

Answer 1 · 2019-10-17T01:07:41.000Z

基于中文字的模型词表比较小，并且不会有OOV的问题，最近也有一些工作分析分词好还是中文字好，你可以参考一下 https://arxiv.org/pdf/1905.05526.pdf.