Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》
- Hadoop offical site
- HDFS 原理、架构与特性介绍
- 基于Docker搭建Hadoop集群之升级版
- 2018年最新Hadoop大数据开发学习路线图
- Spark Offical Site
- 大数据平台:Hadoop-3.x + Spark-2.x + Hive-2.x + Hbase-1.4 + Cassandra + ES 环境配置
- 子雨大数据之Spark入门教程(Python版)
- Python学习指南+实践
- 重温 hadoop 基本原理及架构设计
- hadoop 开发环境搭建
- hello world 测试
- 构建Hadoop生产环境
- 重温 spark 基本原理及架构设计
- spark + hadoop 构造大数据平台
- 任务发布
- 行业定位 - 零售业务 - 人群+店铺
- 数据采集 - flume + python
- 数据清理 - spark
- 数据入库 - hbase
- 定时任务 - hadoop map reduce
- 实时处理 - spark
- 可视化 - ELK + grafanna
- 机器学习
- 智能推荐引擎
- 自动问答机器人
- 人脸识别