- 一个应用了Hadoop生态体系阶段相关技术的大数据离线计算案例。
Directory | Description |
---|---|
用于测试分支 *已过期 | |
logcollector | 用于生成数据的Maven工程 |
Configuration | 配置文件 |
Configuration/Flume | Flume任务的*.conf 配置文件 |
Configuration/Hadoop | $HADOOP_HOME/etc/hadoop/ 目录下的配置文件 |
gmv-job | gmv任务 |
Markdown | 数据仓库各个阶段的的技术文档 |
ShellScript | 服务器端的自定义脚本文件,主要用于启停进程 |
flumeinterceptor | Flume自定义拦截器 |
xmind | 脑图 |
架构设计
项目需求分析
系统流程设计
技术选型
服务器选型
集群规划
数据生成脚本
事件日志bean
启动日志bean
主程序
环境搭建
JDK配置
Hadoop集群搭建
HDFS存储多目录
支持LZO压缩配置
基准测试
Hadoop参数优化
Zookeeper配置/.bashrc
配置
Flume配置
生成日志
Kafka配置
采集日志Flume
Flume消费Kafka配置
采集通道启停
数仓分层
Hive配置Tez引擎
ODS
DWD
业务需求
用户活跃主题
用户新增主题
用户留存主题
沉默用户数
本周回流用户数
流失用户数
最近连续三周活跃用户数
最近七天内连续三天活跃用户数
业务知识与数据结构
业务流程
电商常识
表的结构
数仓理论
表的分类
同步策略
范式理论
关系建模、维度建模
雪花模型、星型模型、星座模型
数仓搭建
Hadoop支持Snappy压缩
Sqoop业务数据导入数仓
ODS
DWD
DWS行为宽表
业务需求
GMV成交总额
用户新鲜度和漏斗分析
品牌复购率
其他内容
数据可视化
Azkaban
拉链表
Presto
Druid
Kylin
- 略
▲2019-8-30 14:57:09