/bdt_5002

assignment and project in 5002

Primary LanguageJupyter Notebook

Big Data Technology || Course Project 介绍

bdt_5002:数据挖掘

  • 数据预处理:通过删除重复数据、补充缺失值(不同空气质量站点之间的距离、缺失时间间隔大小等因素衡量)等方法, 共获得 11626 小时的空气质量、天气情况数据(35个空气质量站点);
  • 特征工程:增加天气情况特征(天气网格站点与空气质量站点间的距离等衡量)、周期性特征(每24小时);
  • 模型预测:选取Seq2Seq 模型,采用每24 * 5 hours预测 24 * 2 hours 的方法进行训练, 获得SMAPE为0.73.

bdt_5410: 模式识别

2. 霍夫变换实现(圆)、FLD算法实现:https://github.com/MingjunGuo/bdt_5410/tree/master/csit5410_assign2