如何从大量数据中找出高频词: 解决方案显然只是近似的

Question

如何从大量数据中找出高频词: 解决方案显然只是近似的

Yuandong-Chen opened this issue 4 years ago · 1 comments

只能说这个解决方案是近似的，反例如下:
比如简化问题，只求最大频率的词。有如下两个文件记为doc1，doc2:
doc1: { "a", "a", "b", "b", "b"}
doc2: {"a", "a", "c", "c", "c"}
那么doc1最大频率词是“b", doc2最大频率词是“c"，但实际最大频率词是“a"。

Answer 1 · 2021-06-21T12:53:14.000Z

@Yuandong-Chen 不是的，对于每个词，会先通过 hash 路由到某些小文件中，相同的词一定路由到同个文件中进行频数统计。