/BigData-Getting-Started

大数据相关框架实战项目(Hadoop, Spark, Storm, Flink)

Primary LanguageJava

大数据相关框架学习

本仓库主要存放了一些学习大数据的实战项目代码,项目来源主要来自慕课网

1. 集群搭建

  • 这里面的项目都可以通过搭建单机standalone模式完成整个流程
  • 这学期云计算课程需要使用集群环境,刚好学校有云资源,记录下集群搭建过程
  • 集群搭建

2. 目录结构

hadoop-train

  • Hadoop基础与电商行为日志分析 新手入门大数据
  • 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据!

项目博客

spark-train, spark-data-visualization

  • Spark Streaming实时流处理项目实战
  • 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前最火爆的Spark Streaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平!

项目博客

spark-sql-train, spark-sql-visualization

  • 以慕课网日志分析为例 进入大数据Spark SQL的世界
  • 本课程以“慕课网日志分析”这一大数据应用案例为主线,使用慕课网真实日志,以目前主流的、最新的Spark稳定版2.1.x为基础,依次介绍相关的大数据技术:Hadoop、Hive、Spark SQL,涉及数据清洗、统计存储、处理入库以及数据可视化(Echarts、Zeppelin),最终会形成一个完整的大数据项目。

项目博客

storm-train, storm-data-visualization

  • 基于Storm构建实时热力分布项目实战
  • Storm是实时流处理领域的一柄利器,本课程采用最新的Storm版本1.1.0,从0开始由浅入深系统讲解,深入Storm内部机制,掌握Storm整合周边大数据框架的使用,从容应对大数据实时流处理!

项目博客

flink-train

  • 新一代大数据计算引擎 Flink从入门到实战
  • 随着云计算和大数据的快速发展,在企业中需要处理和分析的数据量越来越大,随着Flink社区的快速发展,很多公司采用以Flink为核心技术栈来打造统一的大数据处理平台 ,Flink正变得越来越火,此时学习,正当其时。课程中从核心知识的多语言(Java-Scala)讲解到部署实战,循序渐进,助力系统入门Flink企业级应用

项目博客

hbase-train

  • HBase+Spring Boot实战分布式文件存储
  • HBase是一个分布式可扩展的列式数据库,基于Hadoop实现大数据存储,提供数据的随机读写访问。 本课程讲解HBase集群部署、基础原理、高级特性、优化策略、容灾监控、开发实战,以及HBase相关的其他开源项目(如Phoenix,Sqoop等),感兴趣的小伙伴千万不要错过!