大数据分析项目
采用不同的技术栈,通过对不同行业的数据集进行分析,期望达到以下目标:
- 了解不同领域的业务分析指标
- 深化数据处理、数据分析、数据可视化能力
- 增加大数据批处理、流处理的实践经验
- 增加数据挖掘的实践经验
主题 | 技术栈 | 数据集下载 |
---|---|---|
1 亿条淘宝用户行为数据分析 | 清洗 hive + 分析 hive + 可视化 echarts | 阿里云 或者 百度网盘 提取码:5ipq |
1000 万条淘宝用户行为数据实时分析 | 数据源 kafka + 实时分析 flink + 可视化(es + kibana) | 百度网盘 提取码:gja5 |
300 万条《野蛮时代》的玩家数据分析 | 清洗 pandas + 分析 mysql + 可视化 pyecharts | 百度网盘 提取码:paq4 |
7000 条租房数据分析 | 清洗 pandas + 分析 sqlite + 可视化 matplotlib | 百度网盘 提取码:9en3 |