云原生数据底座

云原生数据底座是什么?

继 Hadoop 之后,云原生的 Kubernetes 技术上将形成新一代大数据底座,以 Spark 为统一的计算引擎,以湖仓为统一的存储核心,大幅简化数据栈复杂度,上建低代码、低门槛的数据应用,是未来的大势所趋。 经过以金融生产场景的初步测评,云原生数据底座可以让:

  • 整体 IT 资源利用率提升 20-50%,受益于底层的计算统一和存储统一,资源能在企业更大范围内灵活调配
  • 整体计算性能提升约 20%,受益于存算分离架构,计算任务能更有弹性的分布到更多计算节点高速完成
  • 系统运维成本大幅降低,受益于理论上无限的扩容能力,和整合多系统到统一底座的能力
  • 实现国产化、自主可控的技术换代

Kyligence 云原生数据底座能做什么?

Kyligence 云原生数据底座简称 KYLIGENCE XUANWU,它是一个开源套件,旨在提供一个快速体验和验证新技术的平台,推动国产化云原生技术的交流和发展。

  • 快速安装,一行命令完成 Kubernetes 上的安装,30 分钟开始体验云原生的数据能力
  • 一键运行 TPC-H 基准测试,云原生的 SparkSQL 相比 Hadoop 提速约 20%
  • 一键体验弹性伸缩,快速响应业务变化,精准应对潮汐峰谷
  • 在低代码平台上体验 AI 机器学习,从数据准备、模型训练、到模型发布的全链路

后续展望

  • 下一代 Native Spark Engine 核心升级,性能全面提升约 2.5 倍,预计能整体节省 IT 成本约 40%!
  • 自建 Serverless 计算集群,实现企业内的无限扩容 和 pay-as-you-go

alt text

Quick Start

1. 快速部署

1.1 部署 Xuanwu Manager 步骤

Xuanwu Manager 提供对资源、作业和服务的管理与观测能力,它是数据服务运行的基础。

1.1.1 获取安装脚本
wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu/release/alpha20221230/install_opensource.sh
1.1.2 执行安装脚本
bash install_opensource.sh

正确部署后,使用浏览器即可访问 Xuanwu Manager 各项功能,目前支持两种身份登录:

  • 租户管理员:xuanwu/ADMIN/Xuanwu@319(默认)
  • 平台管理员:ADMIN/KYLIN(默认)

1.2 部署数据服务步骤

1.2.1 获取安装脚本
# 获取安装包并解压
wget --no-check-certificate https://s3.cn-north-1.amazonaws.com.cn/public.kyligence.io/xuanwu-services/release/alpha20221230_opensource.tar.gz
1.2.2 配置对象存储

请修改 xuanwu-1.0-alpha-part-1/values.yaml

# 对象存储
storage:
  type: obs # 华为填写 obs,阿里填写 oss
  bucket: https://mybucket.obs.cn-east-3.myhuaweicloud.com # bucket 地址(obs 为例)
  accessKey: yourAccessKey
  secretKey: yourSecretKey
1.2.3 配置 RSS

为提高存算分离架构下计算引擎执行稳定性,推荐部署 RSS 服务,请将 RSS Master 地址填入文件 xuanwu-1.0-alpha-part-1/values.yaml ,示例如下:

kyuubi:
  spark:
    rss: # RSS 地址
      - addresses:
        - ip: 10.1.2.146
        ports:
        - port: 9097
          protocol: TCP
      - addresses:
        - ip: 10.1.2.147
        ports:
        - port: 9097
          protocol: TCP
      - addresses:
        - ip: 10.1.2.148
        ports:
        - port: 9097
          protocol: TCP
1.2.4 执行安装脚本

在安装包目录下找到 install.sh 并执行

2. 快速使用

2.1 一行命令,生成 TPC-DS 数据集

进入安装包根目录,执行

kubectl apply -f ./tpcds-setup.yaml

查看数据集生成进度,执行 kubectl get job tpcds-setup -n xuanwu ,当 COMPLETIONS 显示 1/1 表示完成

NAME        COMPLETIONS   DURATION   AGE
tpcds-setup   1/1           33m        48m

2.2 一行命令,运行 TPC-DS 基准测试

进入安装包根目录,执行

kubectl apply -f ./tpcds-run.yaml

查看数据集生成进度,执行 kubectl get job tpcds-run -n xuanwu ,当 COMPLETIONS 显示 1/1 表示完成

NAME        COMPLETIONS   DURATION   AGE
tpcds-run   1/1           33m        48m

查看测试结果,执行 kubectl logs job.batch/tpcds-run -n xuanwu

3. 部署 Byzer

为在低代码平台上体验 AI 机器学习,从数据准备、模型训练、到模型发布的全链路,通过 Xuanwu Manager 的 Web GUI 可以快速部署 Byzer


欢迎加入讨论组

alt text