/DC_House_Price_Predict

DataCastle -- King Country房价预测

Primary LanguageJupyter Notebook

Data Castle -- King Country房价预测

描述构建BaseLine过程

题目解析

根据赛题任务描述:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测房屋的销售价格。可知,目标是根据给定的特征,构建合适的回归模型,预测房屋价格。

数据加载

使用pandas的read_csv()方法,读取训练集和测试集数据。

数据探索

  1. 通过DataFrame的shape和head()方法,可看出训练集比测试集多一列标签;
  2. 通过DataFrame的info()和describe()方法,可以看出数据无空值和缺失值;

特征工程

通过观察特征和标签数据,可看出:

  1. ID列对模型预测没有用处,可删除;
  2. 给定的数据时间皆为2014,2015年份数据,可猜测年份对模型预测无作用;可提取月、日作为新的特征;暂定本题非时间序列问题,删除时间列;
  3. 房屋房间数目、房间面积等特征非同一量纲,故进行数据归一化处理;
  4. 标签和特征皆在训练集数据种,需分离;

模型选择

本题为小数据量级回归型问题,先选择SVM的回归模型SVR作为BaseLine的训练模型;

数据保存

  1. 由于特征工程种对数据做了归一化处理,故预测结果需恢复为正常值;
  2. 按题目要求保存数据;

附:文件(夹)说明

  1. DC_Data: 训练和待预测数据;
  2. DC_House_Price_Predict--BaseLine.ipynb:构建BaseLine代码
  3. Task_Info.pdf:题目说明文档