大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资汇总
关注我的公众号:旧时光大数据,回复相应关键字,获取更多大数据干货、资料
“大数据学习路线”中我自己看过的视频、文档资料可以直接在公众号获取云盘链接
《大数据面试题 V4.0》已出,公众号回复:大数据面试题
已开星球,星球内容包括学习路线、学习资料(根据编程语言分了三大版本)、项目、面试题(大数据面试题、Java基础、计算机网络)、800+篇真实面经(已按公司分类)、自己整理的视频学习笔记
学习路线中的视频、文档资料可以关注公众号:旧时光大数据,回复相应关键字获取云盘链接
编程语言部分建议先JavaSE,Spark和Flink之前学习Scala,如果时间紧迫,就找个Java版的Spark或Flink教程,Python看个人或工作,不过有Java基础,Python会快很多(别问我怎么学,问就是使劲拼命学 [ 吃瓜.jpg ])
如果时间短,建议直接看配套Spark的那种三五天的,可以快速了解
推荐黑马的Python视频,通俗易懂,而且文档比较齐全,有Java基础再看Python的话,上手很快
关于VM、远程登录工具的安装暂时可以参考我的博客,找到相应步骤进行操作即可
1.Hadoop——分布式文件管理系统HDFS
2.Hadoop——HDFS的Shell操作
3.Hadoop——HDFS的Java API操作
4.Hadoop——分布式计算框架MapReduce
5.Hadoop——MapReduce案例
6.Hadoop——资源调度器YARN
7.Hadoop——Hadoop数据压缩
1.Zookeeper——Zookeeper概述
2.Zookeeper——Zookeeper单机和分布式安装
3.Zookeeper——Zookeeper客户端命令
4.Zookeeper——Zookeeper内部原理
5.Zookeeper——Zookeeper实战
1.Hive——Hive概述
2.Hive——Hive数据类型
3.Hive——Hive DDL数据定义
4.Hive——Hive DML数据操作
5.Hive——Hive查询
6.Hive——Hive函数
7.Hive——Hive压缩和存储
8.Hive——Hive实战:统计影音视频网站的常规指标
9.Hive——Hive分区表和分桶表
10.Hive——Hive调优
1.Flume——Flume概述
2.Flume——Flume实践操作
3.Flume——Flume案例
1.Kafka——Kafka概述
2.Kafka——Kafka深入解析
3.Kafka——Kafka API操作实践
3.Kafka——Kafka对接Flume实践
1.HBase——HBase概述
2.HBase——HBase数据结构
3.HBase——HBase Shell操作
4.HBase——HBase API实践操作
1.Spark基础——Spark的诞生
2.Spark基础——Spark概述
3.Spark基础——Spark运行模式
4.Spark基础——案例实践
1.Spark Core——RDD概述
2.Spark Core——RDD编程(一)
3.Spark Core——RDD编程(二)
4.Spark Core——键值对RDD数据分区器
5.Spark Core——数据读取与保存
1.Spark SQL——Spaek SQL概述
2.Spark SQL——Spaek SQL编程
3.Spark SQL——Spaek SQL数据的加载与保存
4.Spark SQL——Spaek SQL实战
1.Spark Streaming——Spark Streaming概述
2.Spark Streaming——Dstream基础
3.Spark Streaming——Dstream的转换&输出
1.Flink——Flink核心概述
2.Flink——Flink部署
3.Flink——Flink运行架构
4.Flink——Flink流处理API
5.Flink——Flink中的Window
6.Flink——时间语义与Wartermark
7.Flink——ProcessFunction API(底层API)
8.Flink——状态编程和容错机制
9.Flink——Table API 与SQL
10.Flink——Flink CEP
基本上选择三到四个即可,B站直接搜索项目名字,都有视频
详细说明公众号回复“大数据项目”即可
介绍下Hadoop
Hadoop小文件处理问题
Hadoop中的几个进程和作用
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?
HDFS读写流程
HDFS的block为什么是128M?增大或减小有什么影响?
介绍下MapReduce
MapReduce优缺点
MapReduce工作原理(流程)
介绍下Zookeeper是什么?
Zookeeper有什么作用?优缺点?有什么应用场景?
Zookeeper架构
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?
Hive的用户自定义函数实现步骤与流程
Hive分区和分桶的区别
Hive的cluster by 、sort by、distribute by 、order by 区别?
Hive count(distinct)有几个reduce,海量数据会有什么问题?
介绍下Kafka,Kafka的作用?Kafka的组件?适用场景?
Kafka实现高吞吐的原理?
Kafka的一条message中包含了哪些信息?
Kafka的消费者和消费者组有什么区别?为什么需要消费者组?
Kafka的ISR、OSR和ACK介绍,ACK分别有几种值?
Kafka怎么保证数据不丢失,不重复?
Kafka的单播和多播
介绍下HBase架构
HBase为什么查询快
HBase的大合并、小合并是什么?
HBase的rowkey设计原则
HBase的一个region由哪些东西组成?
HBase读写数据流程
HBase的RegionServer宕机以后怎么恢复的?
HBase的读写缓存
说下对RDD的理解?RDD特点、算子?
Spark小文件问题
Spark的内存模型
Spark的Job、Stage、Task分别介绍下,如何划分?
Spark的RDD、DataFrame、DataSet、DataStream区别?
RDD的容错
1.Hadoop面试题总结(一)
2.Hadoop面试题总结(二)——HDFS
3.Hadoop面试题总结(三)——MapReduce
4.Hadoop面试题总结(四)——YARN
5.Hadoop面试题总结(五)——优化问题
1.Kafka面试题总结(一)
2.Kafka面试题总结(二)
1.Spark面试题总结(一)
2.Spark面试题总结(二)
3.Spark面试题总结(三)
4.Spark面试题总结(四)
Spark性能优化:
5.Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
6.Spark面试题总结(六)——Shuffle配置调优
7.Spark面试题总结(七)——程序开发调优
8.Spark面试题总结(八)——运行资源调优
图片上的PDF书籍在公众号回复关键字“大数据书籍”或“Java书籍”自行进百度云盘群保存即可
交流群建好了,进群的小伙伴可以加我微信:MoRan1607,备注:GitHub