项目说明

本项目是新词挖掘+预训练模型继续预训练:

  • 新词挖掘用到了两种方法,分别是
    • 基于频次的新词挖掘
    • 基于自由凝固度以及左右邻字熵的新词挖掘

详细请看./data/新词挖掘.ipynb

更具体方法原理和效果,请看我的知乎博客https://zhuanlan.zhihu.com/p/414384344

环境

python=3.6
ltp=4.1.5
torch=1.7
transformers=4.5.0