NLPchina/nlp-lang

simHash 指纹去重时对英文文档支持不太好

shanjunwei opened this issue · 3 comments

simHash 指纹去重时对英文文档支持不太好

simHash 算法内置的分词对英文分词支持不太好 导致缺乏对英文文档去重的支持

默认词典中是没有英文的。可以自己加英文词典。。。

过了这么久,感觉自己当初问了个 假问题,感谢耐心解答