所谓的“大数据”其实是海量数据采集清洗转换、数据存储、数据分析、数据服务等场景解决方案的一个统称,在每一个场景都包含了多种可选的技术。
如数据采集有 Flume、Sqoop、Kettle 等,数据存储有分布式文件系统 HDFS、FastDFS,NoSQL 数据库 HBase、MongoDB 等,数据分析有 Spark 技术栈、机器学习算法等。
总的来说大数据架构就是根据业务的需求,整合各种大数据组件组合而成的架构,一般会提供分布式存储、分布式计算、多维分析、数据仓库、机器学习算法等能力。
而服务端架构更多指的是应用组织层面的架构,底层能力往往是由大数据架构来提供
Hadoop集群 |
HDFS集群与MapReduce集群 |
Zookeeper集群与Hive集群 |
Impala集群和Flume集群 |
Kafka集群与 HBase集群 |
Sqoop集群和Azkaban集群 |
HUE集群和Kylin集群 |
千万级批量部署和集群详解 |
高并发负载均衡性集群 |
Heartbeat高可用集群和KeepAlived |
透明代理和反向代理集群 |
OpenStack云计算集群 |
ISCSI网络存储和RHCS集群 |
千万级存储集群 |
Zabbix监控集群和Nagios监控 |
kubernetes集群平台 |
中小型集群存储实战 |
WEB集群企业级实战 |
企业级反向代理集群实战 |
企业级ELK日志集群解决方案 |
邮件集群实战 |
Tomcat集群与存储集群 |
MySQL集群管理 |
Flink入门 |
Flink运行架构 |
Flink DataStream |
Event Time |
大数据概论 |
Hadoop |
完全分布式模式 |
HDFS入门 |
HDFS的API操作 |
Shuffle机制 |
MapReduce框架 |
HDFS的框架原理 |
NN & DN工作机制 |
DN工作机制&新特性 |
新特性& HA框架 |
HDFS-HA集群配置 |
数据压缩 & Yarn |
MapReduce案例 |
Hadoop 3.x新特性 |
Hadoop3.x安装使用 |
Zookeeper原理 |
Hive入门&安装 |
Hive远程连接 |
Hive命令 & 数据倉库 |
Hive DDL数据定义 |
Hive DML数据操作 |
Hive查询 |
Hive JOIN & 排序 |
Hive分桶 & 函数 |
Hive函数 & 压缩 |
企业级调优 |
Hive项目实战 |
Flume |
Kafka |
Hbase |
Sqoop |
Kylin |
Azkaban |
Oozie |
Kettle |
ClickHouse |
Cloudera Manager |
Impala安装 |
Impala操作 |
HUE |
Kudu |
CDH升级安装组件 |
Presto |
Druid |
Ambari |
DataX |
Elasticsearch入门 |
Logstash |
石杉的架构笔记