Data-Warehouse

目录介绍

Directory	Description
~~Hello~~	用于测试分支 *已过期
logcollector	用于生成数据的Maven工程
Configuration	配置文件
Configuration/Flume	Flume任务的`*.conf`配置文件
Configuration/Hadoop	`$HADOOP_HOME/etc/hadoop/`目录下的配置文件
gmv-job	gmv任务
Markdown	数据仓库各个阶段的的技术文档
ShellScript	服务器端的自定义脚本文件，主要用于启停进程
flumeinterceptor	Flume自定义拦截器
xmind	脑图

架构设计
项目需求分析
系统流程设计
技术选型
服务器选型
集群规划

数据生成脚本
事件日志bean
启动日志bean
主程序

环境搭建
JDK配置
Hadoop集群搭建
HDFS存储多目录
支持LZO压缩配置
基准测试
Hadoop参数优化
Zookeeper配置
/.bashrc配置
Flume配置
生成日志
Kafka配置
采集日志Flume
Flume消费Kafka配置
采集通道启停

数仓分层
Hive配置Tez引擎
ODS
DWD

业务需求
用户活跃主题
用户新增主题
用户留存主题
沉默用户数
本周回流用户数
流失用户数
最近连续三周活跃用户数
最近七天内连续三天活跃用户数

业务知识与数据结构
业务流程
电商常识
表的结构

数仓理论
表的分类
同步策略
范式理论
关系建模、维度建模
雪花模型、星型模型、星座模型

数仓搭建
Hadoop支持Snappy压缩
Sqoop业务数据导入数仓
ODS
DWD
DWS行为宽表

业务需求
GMV成交总额
用户新鲜度和漏斗分析
品牌复购率

其他内容
数据可视化
Azkaban
拉链表

Presto

Druid

Kylin

▲2019-8-30 14:57:09