/BigDataGuide

大数据学习,从零开始学习大数据,包含大数据学习各阶段学习视频、面试资料

Primary LanguageJava

最近开始新一轮更新:包括一些视频链接和文档,把一些基础的内容也尽量补齐,避免还要再次找其它资料

大数据面试题PDF版V1.0已经总结完,点击下方链接,进百度云盘群保存即可


大数据学习指南

大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资汇总

概述

  1.大数据简介
  2.大数据相关岗位介绍

大数据学习路线

学习路线中的视频、文档资料可以关注公众号:旧时光大数据,回复相应关键字获取云盘链接

基础部分

一、编程工具选择

现在一般都是使用IDEA了,不过Eclipse也不错,初学时我看的是刘意老师的15年版本的JavaSE,所以开始也是用的Eclipse,后续IDEA也慢慢使用了。也可以根据自己学习JavaSE时用的什么就选什么就行,不过问我JavaSE推荐哪位老师的,我还是会推荐15年版刘意老师的,通俗易懂,容易接受。

二、编程语言

编程语言部分我是把我学的、用的都放在上面了,Java是基础,Scala是后续方便学习Spark和Flink,也是为了迎合以后发展需要,Python这门语言不会感觉确实是个遗憾,所以。。。我就都放上来了(哈哈),前期有Java基础就可以了,其它的后面需要时再补,上手也很快的。(别问我怎么学,问就是使劲拼命学 [ 吃瓜.jpg ])

1、JavaSE

刘意2015版是我初学时看过的,很经典,有的人可能觉得15年的视频过时了,不过我2020年写完毕业论文后又二刷了一遍(没啥想法,当时就当看剧了~),还是觉得很好,该讲的基础都讲到了,很适合入门。当然,如果是要直接使用IDEA的话,建议看刘意老师2019年版或者宋红康老师的,这两位老师的课程在B站都很受欢迎,三选一
  1. 刘意2015版
  2. 刘意2019版
  3. 尚硅谷宋红康版

2、Scala

毋庸置疑,韩顺平老师的,通俗易懂,适合入门,但是不适合急需了解Scala的,如果时间短,建议直接看配套Spark的那种三五天的,可以快速了解,后期有时间再好好看一遍韩顺平老师的这个视频
  1. 韩顺平老师版

3、Python

我比较喜欢黑马的Python视频,通俗易懂,而且文档比较齐全,有Java基础再看Python的话,我是下班后每天花1小时左右,20天左右吧,前面的直接看文档,后面一些特有语法看看视频就行,看完了就上手整起来~所以先学Java还是挺香的
  1. 黑马Python版

4、JDK8/9/10/11新特性

这里还是推荐下尚硅谷的,白嫖真香 [ 狗头.jpg ],前期看自己时间,后期再补也行吧。
  1. 尚硅谷JDK新特性

三、Maven&Tomcat

这两部分其实看博客也不错,不过通过视频就更容易理解,不多说了,B站白嫖起来。还是那句话,这部分也可以等你做项目或者接触到这些的时候再回头来看
  1. Maven&Tomcat


完全分布式集群搭建

完全分布式集群搭建
  关于VM、远程登录工具的安装暂时可以参考我的博客,找到相应步骤进行操作即可
集群搭建

大数据框架组件

一、Hadoop

  1.Hadoop——分布式文件管理系统HDFS
  2.Hadoop——HDFS的Shell操作
  3.Hadoop——HDFS的Java API操作
  4.Hadoop——分布式计算框架MapReduce
  5.Hadoop——MapReduce案例
  6.Hadoop——资源调度器YARN
  7.Hadoop——Hadoop数据压缩

二、Zookeeper

  1.Zookeeper——Zookeeper概述

三、Hive

  1.Hive——Hive概述
  2.Hive——Hive数据类型

四、Flume

  1.Flume——Flume概述
  2.Flume——Flume实践操作
  3.Flume——Flume案例

五、Kafka

  1.Kafka——Kafka概述
  2.Kafka——Kafka深入解析
  3.Kafka——Kafka API操作实践
  3.Kafka——Kafka对接Flume实践

六、HBase

  1.HBase——HBase概述
  2.HBase——HBase数据结构
  3.HBase——HBase Shell操作
  4.HBase——HBase API实践操作

七、Spark

Spark基础

  1.Spark基础——Spark的诞生
  2.Spark基础——Spark概述
  3.Spark基础——Spark运行模式
  4.Spark基础——案例实践

Spark Core

  1.Spark Core——RDD概述

八、Flink

面试题

一、Hadoop

  1.Hadoop面试题总结(一)
  2.Hadoop面试题总结(二)——HDFS
  3.Hadoop面试题总结(三)——MapReduce
  4.Hadoop面试题总结(四)——YARN
  5.Hadoop面试题总结(五)——优化问题

二、Zookeeper

  1.Zookeeper面试题总结(一)

三、Hive

  1.Hive面试题总结(一)
  2.Hive面试题总结(二)

四、HBase

  1.HBase面试题总结(一)

五、Flume

  1.Flume面试题总结(一)

六、Kafka

  1.Kafka面试题总结(一)
  2.Kafka面试题总结(二)

七、Spark

  1.Spark面试题总结(一)
  2.Spark面试题总结(二)
  3.Spark面试题总结(三)
  4.Spark面试题总结(四)

Spark性能优化:
  5.Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
  6.Spark面试题总结(六)——Shuffle配置调优
  7.Spark面试题总结(七)——程序开发调优
  8.Spark面试题总结(八)——运行资源调优

公众号

如果大家想要关注我分享的更多大数据干货的话,可以关注我的公众号:旧时光大数据
“大数据学习路线”中我自己看过的视频、文档资料可以直接在公众号获取相关云盘链接

交流群

交流群建好了,进群的小伙伴可以加我微信:MoRan1607,备注:GitHub