🚜 大数据成神之路目录
⛳ 上车前必读
- ❤️❤️全网最全大数据面试通关手册!❤️❤️
- 图片打不开,点这里
- 👉 如果你不知道自己要从哪开始、要学什么,请看:《八千里路云和月|从零到大数据专家学习路径指南》 这是一个大数据专家/架构师提升自身技术栈广度和深度的经验之路,也是我的亲身学习经历汇总!
- 👉 如果你对某一个框架的学习路径有疑惑🤔,请看下面:
⛳ 大数据开发基础篇
🎿Java基础 | 📝NIO | 📖并发 | 🎸JVM | 💵分布式 | 💾Zookeeper | 👊RPC | 🎨Netty | 💻Linux |
---|---|---|---|---|---|---|---|---|
Java基础 | NIO | 并发容器 | JVM | 分布式 | zookeeper | RPC | Netty | Linux |
⛳ 大数据框架学习篇
Hadoop | Hive | Spark | Flink | HBase | Kafka | Zookeeper |
⛳ 大数据开发实战进阶篇
这里的文章主要是我平时发表在公众号,博客等的文章,精心挑选,以飨读者。
Flink实战进阶 | Spark实战进阶 | Kafka实战进阶 | OLAP实战进阶 |
⛳ 大数据开发面试篇
面试系列合集 | 大数据算法 |
⛳ 个人公众号:octocat: 大数据精品文章合集
2020精品文章合集 | 2021精品文章合集 | 硬刚系列文章合集 |
⛳ 高屋建瓴总结篇
- Hadoop系统性总结(知识星球读者专享)
- Hive系统性总结(知识星球读者专享)
- Spark系统性总结(知识星球读者专享)
- Flink系统性总结(知识星球读者专享)
- Hbase系统性总结(知识星球读者专享)
- Kafka系统性总结(知识星球读者专享)
第一部分: 大数据开发基础篇
一、Java基础
📚 1.1 Java系统性学习
分类导航
- 大数据成神之路-Java高级特性增强(多线程)
- 大数据成神之路-Java高级特性增强(Synchronized关键字)
- 大数据成神之路-Java高级特性增强(volatile关键字)
- 大数据成神之路-Java高级特性增强(锁)
- 大数据成神之路-Java高级特性增强(ArrayList/Vector)
- 大数据成神之路-Java高级特性增强(LinkedList)
- 大数据成神之路-Java高级特性增强(HashMap)
- 大数据成神之路-Java高级特性增强(HashSet)
- 大数据成神之路-Java高级特性增强(LinkedHashMap)
二、NIO基础
📚 2.1 Netty系统系学习
📚 2.2 分类导航
- 大数据成神之路-Java高级特性增强-NIO大纲
- NIO概览
- Java NIO之Buffer(缓冲区)
- Java NIO之Channel(通道)
- ava NIO之Selector(选择器)
- Java NIO之拥抱Path和Files
三、Java并发容器
📚 3.1 系统性学习
3.2 分类导航
- 大数据成神之路-Java高级特性增强(并发容器大纲)
- 大数据成神之路-Java高级特性增强(LinkedBlockingQueue)
- 大数据成神之路-Java高级特性增强(LinkedBlockingDeque)
- 大数据成神之路-Java高级特性增强(CopyOnWriteArraySet)
- 大数据成神之路-Java高级特性增强(CopyOnWriteArrayList)
- 大数据成神之路-Java高级特性增强(ConcurrentSkipListSet)
- 大数据成神之路-Java高级特性增强(ConcurrentSkipListMap)
- 大数据成神之路-Java高级特性增强(ConcurrentLinkedQueue)
- 大数据成神之路-Java高级特性增强(ConcurrentHashMap)
- 大数据成神之路-Java高级特性增强(ArrayBlockingQueue)
四、JVM深度解析和面试点
📚 4.1 系统性学习
4.2 分类导航
4.3 JVM 详解
五、分布式理论基础和原理
- 分布式系统的一些基本概念
- 分布式系统理论基础一: 一致性、2PC和3PC
- 分布式系统理论基础二-CAP
- 分布式系统理论基础三-时间、时钟和事件顺序
- 分布式系统理论进阶 - Paxos
- 分布式系统理论进阶 - Raft、Zab
- 分布式系统理论进阶:选举、多数派和租约
- 分布式锁的解决方案
- 分布式锁的解决方案(二)
- 分布式事务的解决方案
- 分布式ID生成器解决方案
六、大数据框架开发基础-Zookeeper
七、大数据框架开发基础-RPC
八、大数据框架基石之网路通信-Netty
- 关于Netty我们都需要知道什么
- Netty源码解析-概述篇
- Netty源码解析1-Buffer
- Netty源码解析2-Reactor
- Netty源码解析3-Pipeline
- Netty源码解析4-Handler综述
- Netty源码解析5-ChannelHandler
- Netty源码解析6-ChannelHandler实例之LoggingHandler
- Netty源码解析7-ChannelHandler实例之TimeoutHandler
- Netty源码解析8-ChannelHandler实例之CodecHandler
- Netty源码解析9-ChannelHandler实例之MessageToByteEncoder
第二部分:大数据框架学习篇
一、Hadoop
📚 1.1 Hadoop系统性总结
📚 1.2 系统性学习
1.3 分类导航
- 分布式文件存储系统 —— HDFS
- 分布式计算框架 —— MapReduce
- 集群资源管理器 —— YARN
- Hadoop 单机伪集群环境搭建
- Hadoop 集群环境搭建
- HDFS 常用 Shell 命令
- HDFS Java API 的使用
- 基于 Zookeeper 搭建 Hadoop 高可用集群
- Hadoop级简入门
- MapReduce编程模型和计算框架架构原理
二、Hive
📚 2.1 Hive系统性总结
📚 2.2 系统性学习
📚 2.3 分类导航
- Hive 简介及核心概念
- Linux 环境下 Hive 的安装部署
- Hive CLI 和 Beeline 命令行的基本使用
- Hive 常用 DDL 操作
- Hive 分区表和分桶表
- Hive 视图和索引
- Hive常用 DML 操作
- Hive 数据查询详解
三、Spark
📚 3.1 Spark系统性总结
📚 3.2 系统性学习
Spark Core :
- Spark 简介
- Spark 开发环境搭建
- 弹性式数据集 RDD
- RDD 常用算子详解
- Spark 运行模式与作业提交
- Spark 累加器与广播变量
- 基于 Zookeeper 搭建 Spark 高可用集群
Spark SQL :
Spark Streaming :
四、Flink
📚 4.1 Flink系统性总结
📚 4.2 系统性学习
📚 2.3 分类导航
- Flink 核心概念综述
- Flink 开发环境搭建
- Flink Data Source
- Flink Data Transformation
- Flink Data Sink
- Flink 窗口模型
- Flink 状态管理与检查点机制
- Flink Standalone 集群部署
Flink当前最火的实时计算引擎-入门篇
- Flink从入门到放弃(入门篇1)-Flink是什么
- Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用
- Flink从入门到放弃(入门篇3)-DataSetAPI
- Flink从入门到放弃(入门篇4)-DataStreamAPI
- Flink集群部署
- Flink重启策略
- Flink的分布式缓存
- Flink中的窗口
- Flink中的Time
- Flink集群搭建的HA
- Flink中的时间戳和水印
- Flink广播变量
- Flink-Kafka-Connector
- Flink-Table-&-SQL实战
- 15-Flink实战项目之实时热销排行
- 16-Flink-Redis-Sink
- 17-Flink消费Kafka写入Mysql
Flink当前最火的实时计算引擎-放弃篇
五、HBase
📚 5.1 Hbase系统性总结
📚 5.2 系统性学习
📚 5.3 分类导航
- Hbase 简介
- HBase 系统架构及数据结构
- HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
- HBase 集群环境搭建
- HBase 常用 Shell 命令
- HBase Java API
- Hbase 过滤器详解
- HBase 协处理器详解
- HBase 容灾与备份
- HBase的 SQL 中间层 —— Phoenix
- Spring/Spring Boot 整合 Mybatis + Phoenix
六、Kafka
📚 6.1 Kafka系统性总结
📚 6.2 Kafka系统性学习
Kafka基本原理 :
分布式消息队列Kafka原理及与流式计算的集成 :
- Apache-Kafka简介
- Apache-Kafka核心概念
- Apache-Kafka安装和使用
- Apache-Kafka编程实战
- Apache-Kafka核心组件和流程(副本管理器)
- Apache-Kafka核心组件和流程-协调器
- Apache-Kafka核心组件和流程-控制器
- Apache-Kafka核心组件和流程-日志管理器
七、Zookeeper
- Zookeeper 简介及核心概念
- Zookeeper 单机环境和集群环境搭建
- Zookeeper 常用 Shell 命令
- Zookeeper Java 客户端 —— Apache Curator
- Zookeeper ACL 权限控制
八、大数据算法
大数据算法
第三部分:大数据开发实战进阶篇
一、Flink实战进阶文章合集
Flink实战合集
系统性学习
- 菜鸟供应链实时技术架构演进
- 趣头条实战-基于Flink+ClickHouse构建实时数据平台
- ApacheFlink新场景-OLAP引擎
- 说说Flink DataStream的八种物理分区逻辑
- State Processor API:如何读取,写入和修改 Flink 应用程序的状态
- Flink滑动窗口原理与细粒度滑动窗口的性能问题
- 基于Flink快速开发实时TopN
- 使用 Apache Flink 开发实时 ETL
- Flink Source/Sink探究与实践:RocketMQ数据写入HBase
- Spark/Flink广播实现作业配置动态更新
- Flink全链路延迟的测量方式
- Flink原理-Flink中的数据抽象及数据交换过程
- Flink SQL Window源码全解析
- Flink DataStream维度表Join的简单方案
- Apache Flink的内存管理
- Flink1.9整合Kafka实战
- Apache Flink在小米的发展和应用
- 基于Kafka+Flink+Redis的电商大屏实时计算案例
- Flink实战-壳找房基于Flink的实时平台建设
- 用Flink取代Spark Streaming!知乎实时数仓架构演进
- Flink实时数仓-美团点评实战
- 来将可留姓名?Flink最强学习资源合集!
- 数据不撒谎,Flink-Kafka性能压测全记录!
- 菜鸟在物流场景中基于Flink的流计算实践
- 基于Flink构建实时数据仓库
- Flink/Spark 如何实现动态更新作业配置
二、Spark实战进阶文章合集
Spark实战合集
- 如果你在准备面试,好好看看这130道题
- ORC文件存储格式的深入探究
- 基于SparkStreaming+Kafka+HBase实时点击流案例
- HyperLogLog函数在Spark中的高级应用
- 我们常说的海量小文件的根源是什么?
- Structured Streaming | Apache Spark中处理实时数据的声明式API
- Spark面对OOM问题的解决方法及优化总结
- Spark 动态资源分配(Dynamic Resource Allocation) 解析
- Apache Spark在海致大数据平台中的优化实践
- Spark/Flink广播实现作业配置动态更新
- Spark SQL读数据库时不支持某些数据类型的问题
- 这个面试问题很难么 | 如何处理大数据中的数据倾斜
- Spark难点 | Join的实现原理
- 面试注意点 | Spark&Flink的区别拾遗
- Spark Checkpoint的运行原理和源码实现
- 阿里云Spark Shuffle的优化
- 使用Kafka+Spark+Cassandra构建实时处理引擎
- 基于HBase和Spark构建企业级数据处理平台
- SparkSQL在字节跳动的应用实践和优化实战
- SparkRDD转DataSet/DataFrame的一个深坑
- Spark和Flink的状态管理State的区别和应用
- Kafka+Spark Streaming管理offset的几种方法
- 从 PageRank Example谈Spark应用程序调优
- Spark调优|SparkSQL参数调优
- Flink/Spark 如何实现动态更新作业配置
- Stream SQL的执行原理与Flink的实现
- Spark将Dataframe数据写入Hive分区表的方案
- Spark中几种ShuffleWriter的区别你都知道吗?
- SparkSQL的3种Join实现
- 周期性清除Spark Streaming流状态的方法
- Structured Streaming之状态存储解析
- Spark SQL重点知识总结
- SparkSQL极简入门
- Spark Shuffle在网易的优化
- 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
- Spark内存调优
- Structured Streaming 实现思路与实现概述
- Spark之数据倾斜调优
- 你不得不知道的知识-零拷贝
- Spark Streaming消费Kafka数据的两种方案
三、Kafka实战进阶文章合集
Kafka实战合集
四、数据仓库实战系列
数据仓库实战合集
五、OLAP实战文章系列OLAP
六、硬刚系列文章合集
硬刚系列文章合集
- 《硬刚Presto|Presto原理&调优&面试&实战全面升级版》
- 《硬刚Apache Iceberg | 技术调研&在各大公司的实践应用大总结》
- 《硬刚ClickHouse | 4万字长文ClickHouse基础&实践&调优全视角解析》
- 《硬刚数据仓库|SQL Boy的福音之数据仓库体系建模&实施&注意事项小总结》
- 《硬刚Hive | 4万字基础调优面试小总结》
- 《硬刚用户画像(一) | 标签体系下的用户画像建设小指南》
- 《硬刚用户画像(二) | 基于大数据的用户画像构建小百科全书》
- 《我们在学习Spark的时候,到底在学习什么?》
- 《我们在学习Flink的时候,到底在学习什么?》
七、2020精品文章合集
2020精品文章合集
实时计算篇
- Structured Streaming | Apache Spark中处理实时数据的声明式API
- HyperLogLog函数在Spark中的高级应用
- 基于SparkStreaming+Kafka+HBase实时点击流案例
- 基于Flink SQL构建实时数据仓库
- Flink异步之矛-锋利的Async I/O
- Spark SQL快速入门系列之Hive
- 基于SparkStreaming+Kafka+HBase实时点击流案例
- 三万字长文 | Spark性能优化实战手册
- Flink整合OozieShellAction提交任务带Kerberos认证
- Spark源码阅读的正确打开方式
- 消息队列常见面试问题小集合
- Flink1.10和Hive集成一些需要注意的点
- Flink事件时间、水印和迟到数据处理
- Flink使用Broadcast State实现流处理配置实时更新
- 实战 | MySQL Binlog通过Canal同步HDFS
- Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理
- Hive on Spark参数调优姿势小结
- Flink Logback日志与邮件报警配置
- Kafka设计-恰好一次和事务消息
- 基于Canal和Kafka实现MySQL的Binlog近实时同步
- 一个基于RabbitMQ的可复用的事务消息方案
- Spark性能优化总结
- Flink常见异常和错误信息小结
- Spark SQL快速入门系列之Hive
- 实时计算双星-Flink VS Spark 部署模式对比
- PID算法和Spark实现反压的原理
- 关于SparkSQL的开窗函数,你应该知道这些!
- Spark SQL是如何选择join策略的?
- Spark on Hive & Hive on Spark,傻傻分不清楚
- 来看看一个大二学生的Spark练习题
- Flink 自定义触发器实现带超时时间的 CountWindow
- Spark Kafka 基于Direct自己管理offset
- Apache Kylin | 麒麟出没,必有祥瑞
- Flink 参数配置和常见参数调优
- 利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏
- 网站日志实时分析之Flink处理实时热门和PVUV统计
- 大数据量下的集合过滤—Bloom Filter
- 实时数仓链路分享:kafka =>SparkStreaming=>kudu集成kerberos
- Flink CEP 原理和案例详解
- ProcessFunction:Flink最底层API使用踩坑记录
- Flink 1.10之改进的TaskManager内存模型与配置
- 打通实时流处理log4j-flume-kafka-structured-streaming
- 如何设计实时数据平台(设计篇)
- 如何设计实时数据平台(技术篇)
- SparkSQL内核解析-执行全过程概述
- SparkSQL内核解析之逻辑计划
- Flink-1.10中的StreamingFileSink相关特性
- Kafka下的生产消费者模式与订阅发布模式
- Kafka+Spark Streaming如何保证exactly once语义
- Flink之实时统计热门商品的TopN
- SparkSQL的自适应执行-Adaptive Execution
- Kafka KSQL实战
- ELK+FileBeat+Kafka分布式系统搭建图文教程
- HDFS应用场景、原理、基本架构及使用方法
- 数据模型⽆法复⽤,归根结底还是设计问题
- Hadoop支持Lzo压缩配置及案例
- 快看 | Java连接集成Kerberos的HA HDFS方案
- Kafka消费者分区分配策略及自定义分配策略
- Spark Streaming整合log4j、Flume与Kafka的案例
- 面试必知的 Spark SQL 几种 Join 实现
- Flink在大规模状态数据集下的checkpoint调优
- Write-Ahead Log(WAL预写日志)的工作原理
- Kafka常见的导致重复消费原因和解决方案
- Spark-submit 参数调优完整攻略
- Kafka数据可靠性保证三板斧-ACK/ISR/HW
- Spark常见错误问题汇总
- HBase操作组件:Hive、Phoenix、Lealone
- Redis系列 | 缓存穿透、击穿、雪崩、预热、更新、降级
- Kafka工作流程及文件存储机制
- Redis6.0主从、哨兵、集群搭建和原理
- Spark Streaming官方编程指南
- 【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目
- Spark+Kudu的广告业务项目实战笔记(一)
- 大数据入门:Spark+Kudu的广告业务项目实战笔记(二)
- 大数据入门:Spark+Kudu的广告业务项目实战笔记(三)
- 大数据入门:Spark+Kudu的广告业务项目实战笔记(四)
- 大数据入门:Spark+Kudu的广告业务项目实战笔记(五)
- 大数据入门:Spark+Kudu的广告业务项目实战笔记(六)
- Flink 1.11新特性之SQL Hive Streaming简单示例
- SparkSQL 整体运行架构和底层实现
离线计算篇
- ORC文件存储格式的深入探究
- Hadoop支持Lzo压缩配置及案例
- 神策数据分享 | 标签体系应用与建设(文末附下载链接)
- 环形缓冲区-Hadoop Shuffle过程中的利器
- eBay | 实践Hadoop任务的性能翻倍之路
- PDFT/Paxos/Raft-分布式一致性协议解析
- 谈谈经典限流方法—漏桶、令牌桶与Guava RateLimiter的实现
- 轻量级异步屏障快照(ABS)算法解析
- Hadoop小文件利器Ozone
- 数据指标体系建设
- Hbase FAQ热门问答小集合
- 设计HBase RowKey需要注意的二三事
- HBase优化笔记
- HBase生产环境优化不完全指南
- Hive SQL50道练习题
- Hive on Spark参数调优小结
- Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
- ConcurrentHashMap锁机制进化的考量
- HBASE列族不能太多的真相
- 基于ClickHouse的用户行为分析实践
- HBase的系统架构全视角解读
- Kylin Cube构建原理+调优
- Hadoop支持Lzo压缩配置及案例
- Apache Hudi 架构设计和基本概念
- HiveSQL常用优化方法全面总结
- MapReduce性能优化大纲
- 从NoSQL运动谈分布式系统的CAP、BASE理论
- HDFS读写数据过程原理分析
- 数据中台建设五步法
- Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合
- 一篇文章全面了解监控知识体系
- Sqoop 使用shell命令的各种参数的配置及使用方法
- Hive小知识之分桶抽样
- 数据仓库和数据集市建模体系化总结
- Phoenix(云HBase SQL)核心功能原理及应用场景介绍
- 基于实际业务场景下的Flume部署
- 斗转星移 | 三万字总结Kafka各个版本差异
- Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
- SparkSQL用UDAF实现Bitmap函数
- 一文了解Kafka核心概念和角色
- Apache Spark 内存管理详解
- 经典限流方法——漏桶、令牌桶与Guava RateLimiter的实现
- ZooKeeper在HBase集群中的作用
- 从B+树到LSM树,及LSM树在HBase中的应用
- Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解
- 干掉ELK | 使用Prometheus+Grafana搭建监控平台
- 盘点:SQL on Hadoop中用到的主要技术
- 用HiveSQL计算连续天数问题的方法
- 浅谈Linux cgroup机制与YARN的CPU资源隔离
- 京东JDHBase异地多活实践
- Kafka的分区数是不是越多越好?
- 一文俯瞰Elasticsearch核心原理
- 不可不说的Java"锁"事
数据仓库篇
- 一文了解数据库和数据仓库
- 数据仓库系统的实现与使用(含OLAP重点讲解)
- Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析
- 数据也有温度?Elasticsearch 5.x 版本中的冷热数据架构
- 数据冷热分离技术
- 冷热数据分离 | Alluxio元数据管理策略
- 数据之眼 | 数据探查服务的设计
- 元数据存储系统管理演变升级
- 数据湖 | 一文读懂Data Lake的概念、特征、架构与案例
- 用户行为数据采集系统
- 创业公司数据仓库的建设
- Kylin使用Spark构建Cube
- 实时统计分析系统-Apache Druid
- Elasticsearch索引和检索优化与压测监控总结
面试题篇
- 我们常说的海量小文件的根源是什么?
- 如果你在准备面试,好好看看这130道题
- 你可能需要知道的Kafka面试题与部分答案整理
- 28道关于ZooKeeper的面试题
- 【数据白皮书重磅分享】推荐|埋点|用研|标签
- 一份优秀的简历该长成什么样
- 1万2千字长文助力春招 | Netty面试篇
- 消息队列面面观
- 关于技术面试的一点点体会
- 早点建立自己的知识体系
- Filter(过滤)|Project(映射)|Pushdowns(谓词下推)
- 阅读源码|Spark 与 Flink 的 RPC 实现
- 三万六千字通关MySQL面试
- 深入理解CAP理论和适用场景
- HDFS的SecondaryNameNode作用,你别答错了
- Kafka三种可视化监控管理工具Monitor/Manager/Eagle
- Kafka体系架构详细分解
- Kafka笔记—可靠性、幂等性和事务
- Kafka体系架构详细分解
- Kafka面试题系列(进阶篇)
- Kafka面试题系列(基础篇)
- 面试知识点 | Kafka的数据存储与索引设计
- 面试必考点:HBase Compaction机制
- ZooKeeper需要关注的点
- MySQL中InnoDB及索引深入剖析
- Kafka面试题系列(进阶篇2)
- MySql的Binlog日志工具分析:Canal、Maxwell、Databus、DTS
- Redis中的管道Pipeline操作
- 查看YARN任务日志的几种方式
- Yarn 使用 Cgroup 实现任务资源限制
- 分析和定位线上作业 OOM 问题利器-MAT
- 浅谈ZooKeeper中Kafka相关信息的存储
- JVM架构体系与GC命令小总结
其他
- 腾讯如何用Elasticsearch挖掘万亿数据价值?
- Apache Beam 大数据处理一站式分析
- Apache Hudi 架构设计和基本概念
- Apache Hudi 架构设计和基本概念
- MySQL8.0发布,你熟悉又陌生的Hash Join?
- 转载一个看不懂的文章:F1 Query
- Apache Hudi | 统一批和近实时分析的增量处理框架
- 寻找5亿次访问中,访问次数最多的人
- 聊聊阿里巴巴的全链路压测
- 年轻人你渴望力量吗 | 我读过的一些书推荐
- 数据算法之反转排序 | 寻找相邻单词的数量
- MySQL Binlog同步HDFS的方案
- 循环查询数据的性能问题及优化
- 推荐系统 embedding 技术实践总结
- Prometheus+Clickhouse实现业务告警
- 亿级用户的分布式数据存储解决方案
- 基于大数据的用户画像构建小百科全书
- 魅族持续交付平台建设实践
八、2021精品文章合集
2021精品文章合集
汇总部分
- 八千里路云和月|从零到大数据专家学习路径指南
- 我们在学习Flink的时候,到底在学习什么?
- 我们在学习Spark的时候,到底在学习什么?
- 一线互联网公司面试进阶全攻略
- 【大数据成神之路】第一版更新完毕
- 关于技术面试的一点点体会
- 早点建立自己的知识体系
专题部分
Hadoop系列
- 最新Hive/Hadoop高频面试点小集合
- Hadoop所支持的几种压缩格式
- 【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击
- HDFS的SecondaryNameNode作用,你别答错了
- Yarn 使用 Cgroup 实现任务资源限制
- 查看YARN任务日志的几种方式
- 大数据哔哔集20210106 - Hadoop3.0有哪些新特性
Hive系列
HBase
ES等
Kafka/消息队列
- 面试知识点 | Kafka的数据存储与索引设计
- Kafka面试题系列(基础篇)
- Kafka面试题系列(进阶篇)
- Kafka面试题系列(进阶篇2)
- 关于MQ面试的几件小事 | 消息队列的用途、优缺点、技术选型
- 关于MQ面试的几件小事 | 如何保证消息不丢失
- 关于MQ面试的几件小事 | 如何保证消息按顺序执行
- 一道真实的阿里面试题 | 如何保证消息队列的高可用
- 你可能需要知道的Kafka面试题与部分答案整理
- 消息队列面面观
- Kafka三种可视化监控管理工具Monitor/Manager/Eagle
- Kafka体系架构详细分解
- Kafka笔记—可靠性、幂等性和事务
- Kafka体系架构详细分解
- Kafka面试题系列(进阶篇)
- Kafka面试题系列(基础篇)
- 面试知识点 | Kafka的数据存储与索引设计
- 斗转星移 | 三万字总结Kafka各个版本差异
Spark
- 面试必知的 Spark SQL 几种 Join 实现
- 面试注意点 | Spark&Flink的区别拾遗
- Spark如何协调来完成整个Job的运行详解
- 独孤九剑-Spark面试80连击(上)
- 独孤九剑-Spark面试80连击(下)
- Spark的Cache和Checkpoint区别和联系拾遗
- Spark Job 逻辑执行图和数据依赖解析
- Spark Job 物理执行图详解
- Spark Shuffle过程详解
Flink
- 【大数据面试题】Flink企业级面试题60连击
- 全网第一|Flink学习面试灵魂40问答案
- 面试别人说他熟悉Flink,我问了他Flink如何实现exactly-once语义
- 阅读源码|Spark与Flink的RPC实现
- Flink性能调优小小总结
- 生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题
- 我们在学习Flink的时候,到底在学习什么?
数据仓库/数据湖
后端相关
- 三万六千字通关MySQL面试
- 分析和定位线上作业 OOM 问题利器-MAT
- 浅谈ZooKeeper中Kafka相关信息的存储
- JVM架构体系与GC命令小总结
- 深入理解CAP理论和适用场景
- ZooKeeper需要关注的点
- MySQL中InnoDB及索引深入剖析
- MySql的Binlog日志工具分析:Canal、Maxwell、Databus、DTS
- 一致性协议算法-2PC、3PC、Paxos、Raft、ZAB、NWR超详细解析
- MySQL数据库性能优化史诗级大总结
不便分类的其他
- 十道海量数据处理面试题
- 这个面试问题很难么 | 如何处理大数据中的数据倾斜
- 面试系列:十个海量数据处理方法大总
- 我们常说的海量小文件的根源是什么?
- 28道关于ZooKeeper的面试题
- 【数据白皮书重磅分享】推荐|埋点|用研|标签
- 1万2千字长文助力春招 | Netty面试篇
- Filter(过滤)|Project(映射)|Pushdowns(谓词下推)
- 代达罗斯之殇-大数据领域小文件问题解决攻略
面试综合系列
简历系列
面试系列合集
一、Hadoop
- Hadoop面试题总结(一)
- Hadoop面试题总结(二)——HDFS
- Hadoop面试题总结(三)——MapReduce
- Hadoop面试题总结(四)——YARN
- Hadoop面试题总结(五)——优化问题
二、Zookeeper
三、Hive
四、HBase
五、Flume
六、Kafka
七、Spark
Spark性能优化:
- Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
- Spark面试题总结(六)——Shuffle配置调优
- Spark面试题总结(七)——程序开发调优
- Spark面试题总结(八)——运行资源调优
本系列的大纲会根据实际情况进行调整,欢迎大家关注~
声明
文档中参考引用了网络上的博客和文章,大部分给出了出处,有些没写,如果造成了侵权行为,请您联系我,立即删除~
转载分享
建立本开源项目的初衷是基于个人学习与工作中对Java和大数据相关技术栈的总结记录,在这里也希望能帮助一些在学习Java和大数据过程中遇到问题的小伙伴,如果您需要转载本仓库的一些文章到自己的博客,请按照以下格式注明出处,谢谢合作。
作者:王知无
链接:https://mp.weixin.qq.com/s/0N4XSMFPuD7U_paGsBsblw
来源:《大数据技术与架构》
参与贡献
- 如果您对本项目有任何建议或发现文中内容有误的,欢迎提交 issues 进行指正。
- 对于文中我没有涉及到知识点,欢迎提交 PR。
扫我关注公众号
关注公众号:每天定时推送Hadoop/Spark/Flink等最新的大数据领域最新动态和精品技术文章!
扫我加我好友,打造高质量、高知识密度朋友圈!
扫我加群
备注来自GitHub加群,小助手会拉你进大数据讨论组,一起学习交流,期待你的到来~
如果对你有用,欢迎请我喝杯咖啡
备注Github,感谢您~
言而总之
大数据成神之路 该系列文章将为希望从事大数据开发或者由后端转型为大数据开发的工程师们指出需要学习的知识点和路径,本系列文章同时致敬我曾经在网络上看到无数个Java和大数据系列文章,深受启发同时也收货很多。