- 大数据收集、离线分析、实时分析经典案例。
- 模拟生成Nginx请求日志测试数据;
- 模拟生成电商平台用户信息注册、搜索、点击品牌、登录的测试数据;
- 模拟生成Hadoop中WordCount、TopN、Job串行等作业的测试数据;
- ES集群搭建文档;
- 文档的创建新增删除;
- 文档的查询;
- 电商平台用户信息分析写入HBase;
- 统计电商平台每个用户常用搜索词,(TF-IDF)算法使用;
- 实时统计每小时电商平台中用户喜爱的品牌;
- 实时统计网站每小时请求排行的前N名;
- 实时统计网站每小时活跃人数两种方案:内存处理(空间换时间),Bloom过滤器(时间换空间);
- WordCount案例;
- TopN案例;
- 多Job串行案例;
- HiveJDBC查询案例;
- ImpalaJDBC查询案例;
- Spark调优案例文档梳理;
- SparkCore的Transformation、Action操作;
- SparkSQL常用案例:大表Join大表;小表Join大表;
- SparkStreaming 状态编程WordCount案例;
- SparkMLlib 机器学习案例:分类算法K近邻算法、分类算法朴素贝叶斯算法、决策树与随机森林、线性回归、逻辑回归、聚类算法;