doocs/advanced-java

可以考虑使用字典树

ChunelFeng opened this issue · 6 comments

朋友,不能光是分治或者hash啊。url的长度差距不大,而且前面几个字符,绝大部份相同。
这种情况,非常适合使用 字典树(trie tree) 这种数据结构来进行存储。
降低存储成本的同时,提高查询效率。

几百g的文件,不能同时加载到内存,那是怎么能分成一个个4g大小的文件的。
如果说一个几百g的文件能一点点加载进内存,那为什么还要划分成4g大小的文件,然后再一个个4g文件的导入内存做操作?
直接一点点的加载,做hash不是更快吗?

我问写这篇文章的人呀

why not reply me, 百g文件为啥不一次次加载4g内容做哈希,反而要先分成4g文件再一个个哈希,这不是浪费时间嘛?