所谓的“大数据”其实是海量数据采集清洗转换、数据存储、数据分析、数据服务等场景解决方案的一个统称，在每一个场景都包含了多种可选的技术。如数据采集有 Flume、Sqoop、Kettle 等，数据存储有分布式文件系统 HDFS、FastDFS，NoSQL 数据库 HBase、MongoDB 等，数据分析有 Spark 技术栈、机器学习算法等。总的来说大数据架构就是根据业务的需求，整合各种大数据组件组合而成的架构，一般会提供分布式存储、分布式计算、多维分析、数据仓库、机器学习算法等能力。而服务端架构更多指的是应用组织层面的架构，底层能力往往是由大数据架构来提供

大数据面试

Spark	Hadoop	Hive	Kubernetes	Zookeeper	HA	Flume

Linux	Kafka	Sqoop	Azkaban	Oozie	HBase	Serverless

大数据 Demo 实验

本地+分布式Hadoop完整搭建过程	Hadoop完整搭建过程（一）：本地模式	Hadoop完整搭建过程（二）：伪分布模式

Hadoop完整搭建过程（三）：完全分布模式（虚拟机）	Hadoop完整搭建过程（四）：完全分布模式（服务器）

第九阶段大数据运维

第八阶段云计算集群实战一切核心技术的底层支持

Hadoop集群	HDFS集群与MapReduce集群	Zookeeper集群与Hive集群

Impala集群和Flume集群	Kafka集群与 HBase集群	Sqoop集群和Azkaban集群	HUE集群和Kylin集群

第七阶段千万级訪问量集群实战

千万级批量部署和集群详解	高并发负载均衡性集群	Heartbeat高可用集群和KeepAlived

透明代理和反向代理集群	OpenStack云计算集群

ISCSI网络存储和RHCS集群	千万级存储集群	Zabbix监控集群和Nagios监控	kubernetes集群平台

第六阶段百万级訪问量集群实战

Linux网络基础

中小型集群存储实战	WEB集群企业级实战	企业级反向代理集群实战	企业级ELK日志集群解决方案

邮件集群实战	Tomcat集群与存储集群	MySQL集群管理

第五阶段大数据Flink生态体系

Flink入门	Flink运行架构	Flink DataStream	Event Time

第四阶段大数据Spark生态体系

scala	Spark

第三阶段 Hadoop生态体系

大数据概论	Hadoop	完全分布式模式	HDFS入门	HDFS的API操作	Shuffle机制	MapReduce框架

HDFS的框架原理	NN & DN工作机制	DN工作机制&新特性	新特性& HA框架	HDFS-HA集群配置

数据压缩 & Yarn	MapReduce案例	Hadoop 3.x新特性	Hadoop3.x安装使用	Zookeeper原理

Hive入门&安装	Hive远程连接	Hive命令 & 数据倉库	Hive DDL数据定义	Hive DML数据操作

Hive查询	Hive JOIN & 排序	Hive分桶 & 函数	Hive函数 & 压缩	企业级调优	Hive项目实战	Flume

Kafka	Hbase	Sqoop	Kylin	Azkaban	Oozie	Kettle	ClickHouse	Cloudera Manager

Impala安装	Impala操作	HUE	Kudu	CDH升级安装组件	Presto	Druid	Ambari

DataX	Elasticsearch入门	Logstash

stevenli91748/Big-Data

大数据面试

大数据 Demo 实验

第九阶段大数据运维

第八阶段云计算集群实战一切核心技术的底层支持

第七阶段千万级訪问量集群实战

第六阶段百万级訪问量集群实战

第五阶段大数据Flink生态体系

第四阶段大数据Spark生态体系

第三阶段 Hadoop生态体系

第二阶段 JAVAEE核心

第一阶段 Java

视频

有用的参考

stevenli91748/Big-Data

大数据面试

大数据 Demo 实验

第九阶段 大数据运维

第八阶段 云计算集群实战 一切核心技术的底层支持

第七阶段 千万级訪问量集群实战

第六阶段 百万级訪问量集群实战

第五阶段 大数据Flink生态体系

第四阶段 大数据Spark生态体系

第三阶段 Hadoop生态体系

第二阶段 JAVAEE核心

第一阶段 Java

视频

有用的参考

第九阶段大数据运维

第八阶段云计算集群实战一切核心技术的底层支持

第七阶段千万级訪问量集群实战

第六阶段百万级訪问量集群实战

第五阶段大数据Flink生态体系

第四阶段大数据Spark生态体系