/new_words_find

新词发现算法与同义词挖掘

Primary LanguageC

new_words_find

新词发现/未登录词识别:

采用凝固度和左右信息熵规则来过滤,识别出新词。

执行python oov.py进行未登录词识别

同义词挖掘:

分词过滤后,简单采用word2vec进行挖掘,取topk人工审核后作为同义词。

执行train.sh挖掘同义词