-
训练集:train.csv
-
测试集:test.csv
EmployeeNumber, Over18, Employee取值都一样直接删除掉。
- 使用onehot编码将离散型特征值转换为多列,使用lr预测的结果在leaderboard得分0.823
- 将特征值替换为数值0,1,2,3...,使用lr预测在leaderboard得分0.829
- 使用min-max规范化将所有特征值都映射到0-1之间
本部分说明都是采用离散特征值替换为数值的方法作为处理基础
- LR 使用LR模型默认参数和balanced采样的结果为0.829。
- LightGBM 使用GridSearchCV调整超参数,基于CPU运算。最好结果得分是0.838
部分特征进行onehot,部分特征labelencode通过主管理解影响,互斥的特征做onehot。