/newword_discovery

基于词频、互信息、左右熵的新词发现算法

Primary LanguagePython

newword_discovery

基于词频、互信息、左右熵的新词发现算法

运行

将语料库路径输入run.py中,运行即可。

原理

  1. 首先统计每个词的词频,并按照设定的词频阈值过滤一部分词。
  2. 计算每个词的互信息,并按阈值过滤一部分互信息较低的词。
  3. 计算每个词的左右熵,取左右熵的较小值最为最终的熵值,按照设定的熵阈值过滤一部分低熵的词。
  4. 结合互信息和左右熵字典,将二者的值相加,按照设定最终的阈值进行最终的过滤。
  5. 将最终得到的词典,按照词频排序,写入输出文件中。