/text_simhash

simhash text similarity

Primary LanguageOpenEdge ABL

simhash 文本相似

采用 提取keyword 生产simhash,求海明距离算文本相似度

所有参数 在 similarity.cfg中调

demo为调用例子

这里的关键是提取文本的关键词 并做termweight计算,基于tfidf会有一个问题,那些主题相同的文章会相似,比如两篇文章 一篇是 武汉机器人大赛,一篇是杭州机器人大赛,原因是因为top词的tfidf权重太高,导致大吃小。把tfidf改成log(tf*idf),把权重分散一些。

经过测试 长度大于100字,提取150个关键字做测试

汉明距离 3 以内,文本相似准确率 99.9%以上 汉明距离7以内 ,文本相似准确率95%