描述构建BaseLine过程
根据赛题任务描述:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测房屋的销售价格。可知,目标是根据给定的特征,构建合适的回归模型,预测房屋价格。
使用pandas的read_csv()方法,读取训练集和测试集数据。
- 通过DataFrame的shape和head()方法,可看出训练集比测试集多一列标签;
- 通过DataFrame的info()和describe()方法,可以看出数据无空值和缺失值;
通过观察特征和标签数据,可看出:
- ID列对模型预测没有用处,可删除;
- 给定的数据时间皆为2014,2015年份数据,可猜测年份对模型预测无作用;可提取月、日作为新的特征;暂定本题非时间序列问题,删除时间列;
- 房屋房间数目、房间面积等特征非同一量纲,故进行数据归一化处理;
- 标签和特征皆在训练集数据种,需分离;
本题为小数据量级回归型问题,先选择SVM的回归模型SVR作为BaseLine的训练模型;
- 由于特征工程种对数据做了归一化处理,故预测结果需恢复为正常值;
- 按题目要求保存数据;
- DC_Data: 训练和待预测数据;
- DC_House_Price_Predict--BaseLine.ipynb:构建BaseLine代码
- Task_Info.pdf:题目说明文档