所谓的“大数据”其实是海量数据采集清洗转换、数据存储、数据分析、数据服务等场景解决方案的一个统称,在每一个场景都包含了多种可选的技术。 如数据采集有 Flume、Sqoop、Kettle 等,数据存储有分布式文件系统 HDFS、FastDFS,NoSQL 数据库 HBase、MongoDB 等,数据分析有 Spark 技术栈、机器学习算法等。 总的来说大数据架构就是根据业务的需求,整合各种大数据组件组合而成的架构,一般会提供分布式存储、分布式计算、多维分析、数据仓库、机器学习算法等能力。 而服务端架构更多指的是应用组织层面的架构,底层能力往往是由大数据架构来提供

Spark Hadoop Hive Kubernetes Zookeeper HA Flume
Linux Kafka Sqoop Azkaban Oozie HBase Serverless

大数据 Demo 实验

本地+分布式Hadoop完整搭建过程 Hadoop完整搭建过程(一):本地模式 Hadoop完整搭建过程(二):伪分布模式
Hadoop完整搭建过程(三):完全分布模式(虚拟机) Hadoop完整搭建过程(四):完全分布模式(服务器)

第九阶段 大数据运维

第八阶段 云计算集群实战 一切核心技术的底层支持

Hadoop集群 HDFS集群与MapReduce集群 Zookeeper集群与Hive集群
Impala集群和Flume集群 Kafka集群与 HBase集群 Sqoop集群和Azkaban集群 HUE集群和Kylin集群

第七阶段 千万级訪问量集群实战

千万级批量部署和集群详解 高并发负载均衡性集群 Heartbeat高可用集群和KeepAlived
透明代理和反向代理集群 OpenStack云计算集群
ISCSI网络存储和RHCS集群 千万级存储集群 Zabbix监控集群和Nagios监控 kubernetes集群平台

第六阶段 百万级訪问量集群实战

Linux网络基础
中小型集群存储实战 WEB集群企业级实战 企业级反向代理集群实战 企业级ELK日志集群解决方案
邮件集群实战 Tomcat集群与存储集群 MySQL集群管理

第五阶段 大数据Flink生态体系

Flink入门 Flink运行架构 Flink DataStream Event Time

第四阶段 大数据Spark生态体系

scala Spark

第三阶段 Hadoop生态体系

大数据概论 Hadoop 完全分布式模式 HDFS入门 HDFS的API操作 Shuffle机制 MapReduce框架
HDFS的框架原理 NN & DN工作机制 DN工作机制&新特性 新特性& HA框架 HDFS-HA集群配置
数据压缩 & Yarn MapReduce案例 Hadoop 3.x新特性 Hadoop3.x安装使用 Zookeeper原理
Hive入门&安装 Hive远程连接 Hive命令 & 数据倉库 Hive DDL数据定义 Hive DML数据操作
Hive查询 Hive JOIN & 排序 Hive分桶 & 函数 Hive函数 & 压缩 企业级调优 Hive项目实战 Flume
Kafka Hbase Sqoop Kylin Azkaban Oozie Kettle ClickHouse Cloudera Manager
Impala安装 Impala操作 HUE Kudu CDH升级安装组件 Presto Druid Ambari
DataX Elasticsearch入门 Logstash

第二阶段 JAVAEE核心

第一阶段 Java

视频

有用的参考

石杉的架构笔记