计算段落SimHash不管设置多少位,结果都只有42位有效值,后面全部是0
Opened this issue · 3 comments
ryumiyax commented
shibing624 commented
限制了128位,如果文本短就用前面的位,文本长就继续加,最长表示到128位。
ryumiyax commented
限制了128位,如果文本短就用前面的位,文本长就继续加,最长表示到128位。
我测试的结果是,文本会分词并计算每个分词的HASH值,同一位的HASH值会按照0减1加的趋势计算权重(好像权重全部都是1),最后得到的每一位按照正负判断为0还是1
但是每个分词的HASH值都超不过42位,最终的结果就绝对超不过42位啊
shibing624 commented
好的,所以是觉得42位的效果差,想改为128或者更长的位数吗?