bigDataMall
电商数仓
CSDN : https://blog.csdn.net/qq_44226094/category_11631933.html?spm=1001.2014.3001.5482
集群服务器规划 :
服务名称 | 子服务 | 服务器 cpu101 | 服务器 cpu102 | 服务器 cpu103 |
---|---|---|---|---|
HDFS | NameNode | √ | √ | √ |
DataNode | √ | √ | √ | |
JournalNode | √ | √ | √ | |
ZKFC | √ | √ | √ | |
Yarn | NodeManager | √ | √ | √ |
Resourcemanager | √ | √ | √ | |
Zookeeper | Zookeeper Server | √ | √ | √ |
Flume | 采集日志 | √ | √ | |
消费Kafka | √ | |||
Kafka | Kafka | √ | √ | √ |
Hive | Hive | √ | ||
MySQL | MySQL | √ | ||
DataX | DataX | √ | ||
Maxwell | Maxwell | √ | ||
Presto | Coordinator | √ | ||
Worker | √ | √ | √ | |
DolphinScheduler | MasterServer | √ | ||
WorkerServer | √ | √ | √ | |
Druid | Druid | √ | √ | √ |
Kylin | √ | |||
Hbase | HMaster | √ | √ | √ |
HRegionServer | √ | √ | √ | |
Superset | √ | |||
Atlas | √ | |||
Solr | Jar | √ | √ | √ |
数据来源 :
- 行为日志数据
- 业务数据
行为日志数据 :
- 页面浏览记录
- 动作记录
- 曝光记录
- 启动记录
- 错误记录
业务数据 :
全量 :
- activity_info 活动表
- activity_rule 优惠规则表
- base_category1 商品一级分类
- base_category2 商品二级分类
- base_category3 商品三级分类
- base_dic 编码字典表
- base_province 省份表
- base_region 地区表
- base_trademark 品牌表
- cart_info 加购表(特殊)
- coupon_info 优惠卷表
- sku_attr_value SKU平台属性表
- sku_sale_attr_value SKU销售属性表
- sku_info SKU商品表
- spu_info SPU商品表
增量 :
- cart_info 加购表 ( 特殊 )
- comment_info 商品评论表
- coupon_use 优惠卷领用表
- favor_info 收藏表
- order_detail_activity 订单明细活动关联表
- order_detail_coupon 订单明细优惠卷关联表
- order_detail 订单详情表
- order_info 订单表
- order_refund_info 退单表
- order_status_log 订单状态表
- payment_info 支付表
- refund_payment 退款表
- user_info 用户表
技术栈 :
- Flume : 日志收集
- Kafka : 实时缓存
- DataX : 全量同步
- Maxwell : 增量同步
- Hive : 查询
- Spark : 计算引擎
- HDFS : 存储
- YARN : 资源调度
- Zookeeper : HA选举
- Mysql : 元数据存储
- DolphinScheduler : 任务调度
- Zabbix : 集群监控
- Atlas : 元数据管理
- Superset : 数据可视化
- JDK8 : Java环境
- Python : 脚本
- Shell : 脚本
仓库分层规划 :
- ods : 原始数据层
- dim : 公共维度层
- dwd : 明细数据层
- dws : 汇总数据层
- ads : 数据应用层
1 原始数据层
1.1 日志表
1.2 全量表
1.3 增量表
2 公共维度层
3 明细数据层
交易域
工具域
互动域
流量域
用户域
4 汇总数据层
最近1日汇总表
最近n日汇总表
历史至今汇总表
5 数据应用层
流量主题
用户主题
商品主题
交易主题
优惠劵主题
活动主题
导入mysql
- 各活动补贴率
- 各优惠券补贴率
- 新增交易用户统计
- 各省份订单统计
- 用户路径分析
- 各品牌复购率
- 各品类商品购物车存量topN
- 交易综合统计
- 各品类商品交易统计
- 各品牌商品交易统计
- 各渠道流量统计
- 用户行为漏斗分析
- 用户留存率
- 用户新增活跃统计
lg 离线数仓
仓库分层规划 :
- ods : 原始数据层
- dim : 公共维度层
- dwd : 明细数据层
- dws : 汇总数据层
- ads : 数据应用层