/bigdata_demo

bigdata learning

Apache License 2.0Apache-2.0

bigdata_demo

Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》

Reference

任务列表 (2019-05-03 ~ 2019-06-30)

  • 重温 hadoop 基本原理及架构设计
  • hadoop 开发环境搭建
  • hello world 测试
  • 构建Hadoop生产环境
  • 重温 spark 基本原理及架构设计
  • spark + hadoop 构造大数据平台
  • 任务发布
  • 行业定位 - 零售业务 - 人群+店铺
  • 数据采集 - flume + python
  • 数据清理 - spark
  • 数据入库 - hbase
  • 定时任务 - hadoop map reduce
  • 实时处理 - spark
  • 可视化 - ELK + grafanna
  • 机器学习
    • 智能推荐引擎
    • 自动问答机器人
    • 人脸识别