thunlp/OpenCLaP

为什么不先做中文分词再预训练?

Closed this issue · 1 comments

想请问一下,你们预训练的bert模型是基于中文字的对吗?为什么不先做刑事/民事文书的中文分词,再预训练?这样效果不会更好吗?想请问一下不这样做背后的原因是什么?

zzy14 commented

基于中文字的模型词表比较小,并且不会有OOV的问题,最近也有一些工作分析分词好还是中文字好,你可以参考一下 https://arxiv.org/pdf/1905.05526.pdf.