如何仅用10台左右的机器,在几秒到几十秒的时间内,分析百亿级别的数据?
海狗(Higo)是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,蓝鲸等开源系统作为实现,类SQL的查询语法。 海狗是一个能够对大量数据进行分布式处理的软件框架。海狗是快速的高性能的,他的底层因使用了索引、列式存储、以及内存cache等技术,使得数据扫描的速度大为增加。Higo是分布式的,它以并行的方式工作,通过并行处理加快处理速度。
* [项目介绍](https://github.com/muyannian/higo/wiki/introduce) * 海狗ppt pptx1下载 pptx2下载 * [性能测试](https://github.com/muyannian/higo/blob/master/doc/test.docx?raw=true) * [海狗架构](https://github.com/muyannian/higo/wiki/topology) * [蓝鲸介绍](https://github.com/muyannian/higo/wiki/bluewhale) * [典型场景配置与部署示例](https://github.com/muyannian/higo/blob/master/doc/install.docx?raw=true) * [SQL查询语法与JDBC的使用](https://github.com/muyannian/higo/blob/master/doc/hsql.docx?raw=true) * [任意列快速Count(distinct)的实现](https://github.com/muyannian/higo/wiki/distinct)
* [海狗1改动日志](https://github.com/muyannian/higo/wiki/Lucene) * [海狗2改动日志](https://github.com/muyannian/higo/wiki/201302log) * 海狗技术交流群:171465049 * [FAQ](https://github.com/muyannian/higo/wiki/faq) * [将要做的以及BUG列表](https://github.com/muyannian/higo/issues?direction=desc&page=1&sort=updated&state=open)