jiangtaojy/newword_discovery

基于词频、互信息、左右熵的新词发现算法

Python

newword_discovery

基于词频、互信息、左右熵的新词发现算法

运行

将语料库路径输入run.py中，运行即可。

原理

首先统计每个词的词频，并按照设定的词频阈值过滤一部分词。
计算每个词的互信息，并按阈值过滤一部分互信息较低的词。
计算每个词的左右熵，取左右熵的较小值最为最终的熵值，按照设定的熵阈值过滤一部分低熵的词。
结合互信息和左右熵字典，将二者的值相加，按照设定最终的阈值进行最终的过滤。
将最终得到的词典，按照词频排序，写入输出文件中。