ML_micro_loan

机器学习项目：微额借款用户人品预测

项目说明

互联网金融近年来异常火热，大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款，风险控制永远是业务的核心基础。而在所有的互联网金融产品中，微额借款（借款金额500元~1000元）因其主要服务对象的特殊性，被公认为是风险最高的细分领域。本项目是预测”小额微贷“申请借款用户的信用状况，以分析其是否逾期。

数据下载

项目中用到的训练数据和测试数据下载：http://pan.baidu.com/s/1i36Q4p3 密码：m5bq
特征描述文件下载：http://pan.baidu.com/s/1bnBgO5h 密码：hkmi

数据说明

训练集（带标签）：15,000个样本
测试集：5000个样本
训练集（无标签）：50,000个样本
特征描述（描述特征是数值型还是类别型）

更新记录

2016.12.2 ===============

第一次提交训练结果文件，本次项目使用了scilearn机器学习库中的逻辑回归模型预测用户的人品，根据网站反馈结果，本次预测AUC评分是0.55

2016.12.3 ===============

新增了随机森林、朴素贝叶斯、支持向量机、K最紧邻算法。
比较这些机器学习算法，发现逻辑回归、随机森林及K最近邻算法可以取得较好的效果。

2016.12.4 ===============

使用scikit-learn库里的随机森林算法，因为我们的数据的特征已经脱密，所以我们无法得知每个特征的具体意义，所以手动调整模型参数既盲目又低效。
使用xgboost库进行生成模型，设置合理参数，取得非常大的提升，本次提交为本人提交中历史最高，AUC评分达到0.69,排名360，已经进入前50%.

2016.12.5 ===============

调整xgboost部分参数，将迭代次数由2000增加为5000，取得一定提升，AUC评分0.70，排名330名。
将训练得到的xgb模型也加入到git仓库中，防止以后模型丢失，避免重新训练模型的麻烦。

2016.12.6 ===============

将原始数据中的分类类型的数据编码成OneHot码。
将原始数据中的数值型数据与编码后的分类数据进行合并，作为模型训练的数据集。
仓库中加入了分类数据编码程序features_OneHot.ipynb以及提取数值型文件的程序get_num_feature.ipynb
辛苦弄了半天的数据预处理，然而成绩并没有提高，好心塞~，但是至少学会了分类数据的处理办法，也算有所得吧！

Root-lee/ML_micro_loan

ML_micro_loan

项目说明

数据下载

数据说明

更新记录