zhang921210/new-word-recognition

new word recognition base on the Mutual Information and the Entropy

Python

new-word-recognition

基于互信息和邻接熵的新词发现算法

0x00 参考文章

互联网时代的社会语言学：基于SNS的文本数据挖掘
基于改进互信息和邻接熵的微博新词发现方法
融合词频特性及邻接变化数的微博新词识别

0x01 基本原理

凝聚度（互信息）
自由度（信息熵）

0x02 其他说明

`gen_char_tf`

用于统计整个语料库的单字出现频数

`gen_dict`

用于统计整个语料库可能的词语的频数、前缀集合、后缀集合；使用jieba分词过滤“旧词”，可以大大提高新词发现的效率

`gen_dict_all`

用于统计整个语料库可能的词语的频数、前缀集合、后缀集合；统计所有可能的词语，“旧词”的频数信息能够用于更新jieba分词的默认词典，提高分词准确率

`get_words`

遍历gen_dict或者gen_dict_all生成的CSV文件，计算词语的互信息和左右信息熵，根据阈值过滤出“新词”