大数据相关的技术可以分为:传输、存储、计算三大方面
-
(核心)基础框架
-
数据存储
- hbase:核心API、进阶、与Hive和MR集成、Phoenix集成
- kafka:命令行、API、企业级实战
- elasticsearch
- zookeeper
-
数据传输(数据交换、数据集成)
-
大数据调度:满足复杂大规模作业的调度场景
-
第三方or商业集成技术
- aliyun-bigdata:阿里云大数据(包括DataWorks、MaxCompute等)
- dss:微众开源一站式数据平台(DataSphere Studio)
- 计算中间件:linkis
- 数据交换:exchangis
-
环境搭建
-
大数据建设
-
前沿
- 增强性数据分析
- 数据中台
- 数据湖
- 湖仓一体Lakehouse
-
其他
-
Apache版本: http://archive.apache.org/dist/
-
CDH5单个版本: http://archive.cloudera.com/cdh5/cdh/5/
-
清华Apache镜像: https://mirrors.tuna.tsinghua.edu.cn/apache/
- 《离线和实时大数据开发实战》-朱松岭
- 《Hadoop构建数据仓库实践》-王雪迎
- 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》
- 《spark快速大数据分析(learning-spark)》: https://github.com/databricks/learning-spark
- 《Hive性能调优实战》-林志煌
- 《数据仓库》