kaggle 上基本的房价预测分析,第一次完完整整的将代码实现了一遍,
纪念一下2018.12.16,come on,just do it! The step as follows:
1.建立工程,导入sklearn、pandas等所需要的库
2.读取train.csv,设置目标函数为y=home_data.SalePrice,选取特征变量features给X
3.将数据随机分为验证集与训练集random_state=1
4.建立随机决策树model,random_state=1,训练数据,验证预测,计算平均绝对误差
5.建立指定最大叶子节点max_leaf_nodes=100的决策树模型,训练、验证、误差计算
6.建立随机森林模型,random_state=1,训练,验证、误差计算
7.建立训练全部数据的RandomForestRegressor,random_state=0,同上
8.选择误差最小的模型,对test.csv训练,得出结果,提交结果。

模型效果比较:
Validation MAE when not specifying max_leaf_nodes:29,653
Validation MAE for best value of max_leaf_nodes:27,283
Validation MAE for Random Forest Model: 22,762
Validation MAE on full data for Random Forest Model: 23,040.02603