机器学习第一次作业
使用决策树对Titanic上人员的存活状况进行预测分类
python3.6
数据集包含550个数据,分为2类,利用每个数据的Pclass、Age、Embarked、Sex 4个属性 来进行分类,
- Pclass(客场等级)
- Survived(生还状况),统一规定用1代表生还,用0代表死亡
- Name(名字)
- Age(年龄)
- Embarked(登船港口)
- Sex(性别)
预处理:
1.对缺失数据及错误数据进行删除处理
2.将年龄分为baby,child,adult和old
3.按4:1对数据集进行随即划分为训练集和测试集
决策树种类 | 准确率 |
---|---|
ID3Tree | 78.5% |
CARDTree | 80.4% |