/ML_micro_loan

a machine learning project

Primary LanguageJupyter Notebook

ML_micro_loan

机器学习项目:微额借款用户人品预测

项目说明

互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。本项目是预测”小额微贷“申请借款用户的信用状况,以分析其是否逾期。

数据下载

数据说明

  1. 训练集(带标签):15,000个样本
  2. 测试集:5000个样本
  3. 训练集(无标签):50,000个样本
  4. 特征描述(描述特征是数值型还是类别型)

更新记录

2016.12.2 ===============

  • 第一次提交训练结果文件,本次项目使用了scilearn机器学习库中的逻辑回归模型预测用户的人品,根据网站反馈结果,本次预测AUC评分是0.55

2016.12.3 ===============

  • 新增了随机森林、朴素贝叶斯、支持向量机、K最紧邻算法。
  • 比较这些机器学习算法,发现逻辑回归、随机森林及K最近邻算法可以取得较好的效果。

2016.12.4 ===============

  • 使用scikit-learn库里的随机森林算法,因为我们的数据的特征已经脱密,所以我们无法得知每个特征的具体意义,所以手动调整模型参数既盲目又低效。
  • 使用xgboost库进行生成模型,设置合理参数,取得非常大的提升,本次提交为本人提交中历史最高,AUC评分达到0.69,排名360,已经进入前50%.

2016.12.5 ===============

  • 调整xgboost部分参数,将迭代次数由2000增加为5000,取得一定提升,AUC评分0.70,排名330名。
  • 将训练得到的xgb模型也加入到git仓库中,防止以后模型丢失,避免重新训练模型的麻烦。

2016.12.6 ===============

  • 将原始数据中的分类类型的数据编码成OneHot码。
  • 将原始数据中的数值型数据与编码后的分类数据进行合并,作为模型训练的数据集。
  • 仓库中加入了分类数据编码程序features_OneHot.ipynb以及提取数值型文件的程序get_num_feature.ipynb
  • 辛苦弄了半天的数据预处理,然而成绩并没有提高,好心塞~,但是至少学会了分类数据的处理办法,也算有所得吧!