/new-words-discovery

新词发现

Primary LanguagePython

new-words-discovery

这是完成了新词发现功能的python脚本。

##使用方法 ###1. 输入语料,计算出长度为1~5个字的所有候选词的词频

python compute_candidate_freq.py [-h] [-r] [-o OUTPUT] corpus_file

加上参数-r,会将语料文件的句子都翻转后,再统计所有逆序候选词的词频。

###2. 输入候选词词频文件,计算出长度为2~4个字的所有候选词的凝固度

python compute_solidation.py [-h] [-s SEPARATOR] [-f FREQ_LIMIT] [-o OUTPUT] freq_file

可通过参数-s设置词频文件的分隔符,默认是\t;设置-f可只计算词频大于等于词频阈值的候选词,默认为1。

###3. 输入候选词词频文件,计算出长度为2~4个字的所有候选词的右邻字信息熵

python compute_freedegree.py [-h] [-s SEPARATOR] [-f FREQ_LIMIT] [-r] [-o OUTPUT] freq_file

可通过参数-s设置词频文件的分隔符,默认是\t;设置-f可只计算词频大于等于词频阈值的候选词,默认为1;加上-r时,需要输入是逆序候选词词频文件,输出的是正序候选词的左邻字信息熵。

###4. 将词频文件,凝固度文件,左右邻字信息熵文件,合并到一起,然后导入Excel,通过设置词频阈值,凝固度阈值,自由度阈值刷选出新词。