/Data-Warehouse

一个应用了Hadoop生态体系阶段相关技术的大数据离线计算案例。

Primary LanguageHTML

Data-Warehouse

  • 一个应用了Hadoop生态体系阶段相关技术的大数据离线计算案例。

目录介绍

Directory Description
Hello 用于测试分支 *已过期
logcollector 用于生成数据的Maven工程
Configuration 配置文件
Configuration/Flume Flume任务的*.conf配置文件
Configuration/Hadoop $HADOOP_HOME/etc/hadoop/目录下的配置文件
gmv-job gmv任务
Markdown 数据仓库各个阶段的的技术文档
ShellScript 服务器端的自定义脚本文件,主要用于启停进程
flumeinterceptor Flume自定义拦截器
xmind 脑图

完成进度

▼ 用户行为数据采集阶段

架构设计
项目需求分析
系统流程设计
技术选型
服务器选型
集群规划

数据生成脚本
事件日志bean
启动日志bean
主程序

环境搭建
JDK配置
Hadoop集群搭建
HDFS存储多目录
支持LZO压缩配置
基准测试
Hadoop参数优化
Zookeeper配置
/.bashrc配置
Flume配置
生成日志
Kafka配置
采集日志Flume
Flume消费Kafka配置
采集通道启停

▼ 用户行为数据仓库

数仓分层
Hive配置Tez引擎
ODS
DWD

业务需求
用户活跃主题
用户新增主题
用户留存主题
沉默用户数
本周回流用户数
流失用户数
最近连续三周活跃用户数
最近七天内连续三天活跃用户数

▼ 系统业务数据仓库

业务知识与数据结构
业务流程
电商常识
表的结构

数仓理论
表的分类
同步策略
范式理论
关系建模、维度建模
雪花模型、星型模型、星座模型

数仓搭建
Hadoop支持Snappy压缩
Sqoop业务数据导入数仓
ODS
DWD
DWS行为宽表

业务需求
GMV成交总额
用户新鲜度和漏斗分析
品牌复购率

其他内容
数据可视化
Azkaban
拉链表

▼ 即席查询

Presto

Druid

Kylin

▼ CDH版数仓采集

▲2019-8-30 14:57:09