/new-word-recognition

new word recognition base on the Mutual Information and the Entropy

Primary LanguagePython

new-word-recognition

基于互信息和邻接熵的新词发现算法

0x00 参考文章

  • 互联网时代的社会语言学:基于SNS的文本数据挖掘
  • 基于改进互信息和邻接熵的微博新词发现方法
  • 融合词频特性及邻接变化数的微博新词识别

0x01 基本原理

  • 凝聚度(互信息)
  • 自由度(信息熵)

0x02 其他说明

gen_char_tf

用于统计整个语料库的单字出现频数

gen_dict

用于统计整个语料库可能的词语的频数、前缀集合、后缀集合;使用jieba分词过滤“旧词”,可以大大提高新词发现的效率

gen_dict_all

用于统计整个语料库可能的词语的频数、前缀集合、后缀集合;统计所有可能的词语,“旧词”的频数信息能够用于更新jieba分词的默认词典,提高分词准确率

get_words

遍历gen_dict或者gen_dict_all生成的CSV文件,计算词语的互信息和左右信息熵,根据阈值过滤出“新词”