doocs/advanced-java

如何从大量数据中找出高频词: 解决方案显然只是近似的

Yuandong-Chen opened this issue · 1 comments

只能说这个解决方案是近似的,反例如下:
比如简化问题,只求最大频率的词。有如下两个文件记为doc1,doc2:
doc1: { "a", "a", "b", "b", "b"}
doc2: {"a", "a", "c", "c", "c"}
那么doc1最大频率词是“b", doc2最大频率词是“c",但实际最大频率词是“a"。

@Yuandong-Chen 不是的,对于每个词,会先通过 hash 路由到某些小文件中,相同的词一定路由到同个文件中进行频数统计。