/bigdata-projects

使用Hadoop、Spark等实现的大数据平台项目

Primary LanguageScalaMIT LicenseMIT

大数据项目集

1. 基于Hadoop的离线用户行为日志分析(weblog)

技术栈:Hadoop

  • Bean
  • 点击流数据处理
  • 点击会话流模型构建
  • Hive明细表构建
  • 用户行为指标分析

2. 基于Akka实现RPC通信(akka_rpc)

技术栈:Akka

  • 模拟Hadoop集群间通信
  • 模拟Spark集群间通信
  • 模拟Yarn通信

3. 广告数据管理平台(dmp)

技术栈:Spark、Scala

  • 广告日志ETL
  • 报表统计
  • 用户画像构建
  • 广告标签统计
  • DMP结果入库HBase

4. 基于Spark MLLib实现个性化推荐(mllib)

技术栈:Spark、Scala

  • MovieLens DataModel构建
  • 冷启动:启动时用户随机对10部电影评分
  • 切分数据集
  • ALS模型构建
  • 模型评估
  • 个性化推荐

5. 基于Flink对CDN日志分析(flink-train)

技术栈:Flink、Scala

  • 模拟Kafka生产者生成日志数据
  • CDN日志分析