大数据计算平台

需求

数据采集

导入HDFS

  • 文件上传
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录文件路径信息
      • 上传时间
    • 上传目标
      • 公共空间
      • 个人空间
    • 上传数据
      • 自动创建文件夹
      • 用户自定义路径名
      • 是否覆盖
  • 数据库拉取
    • 数据库信息预览
    • 是否覆盖导入
    • 单表导入
    • SQL导入
    • 指定路径名称
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录文件路径信息

导入Hive

  • 文件上传
    • 是否自动读取字段名称
    • 是否覆盖
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录数据源表结构信息
    • 考虑添加自动转码功能
    • 指定表结构
    • 自定义表名称
    • 上传目标
      • 个人空间
      • 公共空间
  • 数据库拉取
    • 数据库信息预览
    • 是否覆盖导入
    • 单表导入
    • SQL导入
    • 自定义表名称
    • 新建数据源
      • 数据源命名
      • 选择分组
      • 记录数据源表结构信息

从HDFS导入

  • 以生成的结果目录作为数据源

统计分析

  • MR

    • 选择数据源
    • 用户自定义结果路径
    • 指定算法
    • 保存计算流程
  • HQL

    • 选择数据源
    • 自定义SQL
    • 指定结果表名称
    • 封装简单统计功能
      • 求最值
      • 求平均
      • 求和
      • 计数
    • 保存计算流程

结果展现

  • 显示结果表字段名称
  • 显示结果表预览数据
  • 选择图表类型
  • 选择构建图表的列
  • 设置相关配置参数
  • 渲染图表
  • 多图展示
  • 混合展示

管理功能

用户注册

  • 记录用户信息
  • 创建用户空间
    • HDFS存放路径
    • Hive数据库

数据源管理

  • 数据源删除
    • 删除数据源信息
    • 移除相应的数据文件
  • 数据源预览
    • HDFS文件类型
      • 文件大小
      • 上传时间
      • 存放路径
    • Hive管理类型
      • 表结构预览
      • 上传时间
      • 部分数据预览
  • 数据源分组管理
    • 添加分组
      • 添加校验
    • 删除分组
      • 删除校验
    • 分组列表
    • 修改分组
      • 修改校验
  • 数据源分组变更
    • 移动数据源

数据流程管理

  • 新建流程
  • 流程信息记录
    • 相关数据源
    • 用户自定义SQL
    • 相关算法
    • 结果表
    • 结果路径
  • 流程运行状态
    • 未开始
    • 运行中
    • 已完成
    • 运行异常
  • 结果表或结果路径记录
  • 数据流程列表

用户登录

用户权限管理

开发环境

web

  • JDK 1.8
  • SpringBoot
  • MySQL
  • Redis
  • Thymeleaf
  • E-Charts
  • Amaze UI

大数据组件

  • hadoop-2.9.1
  • hive-1.2.2
  • sqoop-1.4.7