机器学习项目:微额借款用户人品预测
互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。本项目是预测”小额微贷“申请借款用户的信用状况,以分析其是否逾期。
- 项目中用到的训练数据和测试数据下载:http://pan.baidu.com/s/1i36Q4p3 密码:m5bq
- 特征描述文件下载:http://pan.baidu.com/s/1bnBgO5h 密码:hkmi
- 训练集(带标签):15,000个样本
- 测试集:5000个样本
- 训练集(无标签):50,000个样本
- 特征描述(描述特征是数值型还是类别型)
2016.12.2 ===============
- 第一次提交训练结果文件,本次项目使用了scilearn机器学习库中的逻辑回归模型预测用户的人品,根据网站反馈结果,本次预测AUC评分是0.55
2016.12.3 ===============
- 新增了随机森林、朴素贝叶斯、支持向量机、K最紧邻算法。
- 比较这些机器学习算法,发现逻辑回归、随机森林及K最近邻算法可以取得较好的效果。
2016.12.4 ===============
- 使用scikit-learn库里的随机森林算法,因为我们的数据的特征已经脱密,所以我们无法得知每个特征的具体意义,所以手动调整模型参数既盲目又低效。
- 使用xgboost库进行生成模型,设置合理参数,取得非常大的提升,本次提交为本人提交中历史最高,AUC评分达到0.69,排名360,已经进入前50%.
2016.12.5 ===============
- 调整xgboost部分参数,将迭代次数由2000增加为5000,取得一定提升,AUC评分0.70,排名330名。
- 将训练得到的xgb模型也加入到git仓库中,防止以后模型丢失,避免重新训练模型的麻烦。
2016.12.6 ===============
- 将原始数据中的分类类型的数据编码成OneHot码。
- 将原始数据中的数值型数据与编码后的分类数据进行合并,作为模型训练的数据集。
- 仓库中加入了分类数据编码程序features_OneHot.ipynb以及提取数值型文件的程序get_num_feature.ipynb
- 辛苦弄了半天的数据预处理,然而成绩并没有提高,好心塞~,但是至少学会了分类数据的处理办法,也算有所得吧!