基于互信息和邻接熵的新词发现算法
- 互联网时代的社会语言学:基于SNS的文本数据挖掘
- 基于改进互信息和邻接熵的微博新词发现方法
- 融合词频特性及邻接变化数的微博新词识别
- 凝聚度(互信息)
- 自由度(信息熵)
用于统计整个语料库的单字出现频数
用于统计整个语料库可能的词语的频数、前缀集合、后缀集合;使用jieba分词过滤“旧词”,可以大大提高新词发现的效率
用于统计整个语料库可能的词语的频数、前缀集合、后缀集合;统计所有可能的词语,“旧词”的频数信息能够用于更新jieba分词的默认词典,提高分词准确率
遍历gen_dict
或者gen_dict_all
生成的CSV文件,计算词语的互信息和左右信息熵,根据阈值过滤出“新词”