中文的新词发现是一个非常有意思的研究项目,最近在看中文分词的资料的时候读到了几篇关于中文新词发现的不错的博客,整理了一下。
- http://www.matrix67.com/blog/archives/5044
- matrix67这篇文章非常详细的介绍了利用统计信息获取中文新词的方法,用到的统计信息主要有:
- 单词的词频
- 单词内部的凝合程度,好像就是所谓的PMI
- 单词上下文的信息熵
- http://spaces.ac.cn/archives/3491/
- 该博客参考了matrix67的文章,实现了算法,我在他的基础上做了一些修改,具体参见detect_method_1.ipynb
- 该博主有一系列的新词发现文章,后面会逐步加进来。
- 基于HMM的新词发现
- 这个是我在阅读jieba源代码了解的方法,通过将问题转换为序列标注问题,同时解决了新词发现和分词的问题。
- 具体的就参考jieba的源代码吧,最主要的问题是训练数据的获取。
- 实验两种无监督分词方法
- 应用在实际项目中