比赛公开了国内网络借贷行业的贷款风险数据
- 包括信用违约标签(因变量)
- 建模所需的基础与加⼯字段(自变量)
- 相关用户的网络行为原始数据
本着保护借款⼈隐私以及拍拍贷知识产权的目的,数据字段已经过脱敏处理。
- 数据编码为GBK。
- 初赛数据包括3万条训练集和2万条测试集。
- 复赛会增加新的3万条数据,供参赛团队优化模型,并新增1万条数据作为测试集。
- 所有训练集,测试集都包括3个csv文件。
Master(每一行代表一个成功成交借款样本,每个样本包含200多个各类字段。
- idx:每笔贷款的unique key,可与另外2个文件里的idx相匹配。
- UserInfo_*:借款人特征字段�
- WeblogInfo_*:Info网络行为字段
- Education_Info*:学历学籍字段
- ThirdParty_Info_PeriodN_*:第三方数据时间段N字段
- SocialNetwork_*:社交网络字段
- LinstingInfo:借款成交时间
- Target:违约标签(1 = 贷款违约,0 = 正常还款)。测试集里 不包含target字段。
**Log_Info(借款人的登陆信息)**�
- ListingInfo:借款成交时间�
- LogInfo1:操作代码�
- LogInfo2:操作类别
- LogInfo3:登陆时间
- idx:每一笔贷款的unique key
Userupdate_Info(借款⼈修改信息)
- ListingInfo1:借款成交时间�
- UserupdateInfo1:修改内容�
- UserupdateInfo2:修改时间
- idx:每⼀笔贷款的unique key
1.数据清洗 对缺失值的多维度的处理 对离群点的剔除方法 文本处理 2.特征工程 地理位置信息处理 成交时间 类别编码 组合特征 3.特征选择 Xgboost重要度排序 4.类别不平衡处理 代价敏感学习与过采样 5模型设计与优化
缺失值的多维度处理;
-
对于每一列来说,统计每一列的数据缺失比例,如下:
-
对于每一行来说,也统计一下缺失值的个数并按缺失值大小从小到大排序,训练集和测试集表现出近乎一样的分布,但在右上角区域略有不多,于是我们猜测,这部分的数据之所以分布与测试集不同,应该是离群点的缘故,这样我们通过对比训练集和测试集上数据缺失值的数量分布区分出了明显的离群点。
-
还可以利用Xgboost在原始的训练集上训练数据得出每一个原始特征的重要程度列表,排序以后,取前40个重要的原始特征(根据原始特征的数量,可以调整抽取重要特征的个数),将有缺失值的样本拿出来进行统计,如果其缺失的原始特征中达到10个特征都是前20个重要特征,那就说么这个样本为异常值,应该剔除掉。
剔除常变量 原始数据中有190维数值型特征,计算出这些数值型特征的标准差,标准差几乎为零的说明其,在这一维度上的取值几乎为常数,故其没有区分度,没有价值,我们以小于deng为界限,剔除掉标准差小于0.1的特征项。
其余的文本处理 1.字符大小写转换 Userupdate_Info表中的UserupdateInfo1字段,属性取值为英文字符,包含了大小写,如“_QQ”和“_qQ”,很明显是同一种取值,我们将所有字符统一转换为小写。 2.空格符号处理 Master 表中 UserInfo_9字段的取值包含了空格字符,如“**移动”和“**移动 ”,它们是同一种取值,需要将空格符去除。 3.城市名处理 UserInfo_8 包含有“重庆”、“重庆市”等取值,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉“市”之后,城市数由 600 多下降到 400 多。
1.(省份)地理位置的处理方法 UserInfo_7和UserInfo_19是省份信息,其余为城市信息。统计每个省份和城市的违约率。 以 UserInfo_7如下:
UserInfo_19 如下:
选择违约率超过%的省份或直辖市,例如四川,湖南,湖北,吉林,天津,山东等等,用这些省份或直辖市构造几个二值特征:“是否为四川省”,“是否为湖南省”........“是否为山东省”,取值为 0或1 。 2.(市级)地理位置处理 (1)按照城市等级合并 由于市级城市数量过多,如果按照类别型特征直接处理,进行独热编码后,会得到很高的维度的稀疏特征,这样训练的时候,每一维度的城市特征是学不到什么有用的权重的。故不可采取这种办法,除了上述按违约率较高的省份或直辖市单独成为一个维度,违约率过低的合并成一个维度以为,还可以将所有城市按照经济上对于城市等级的经济等级分层划分成不同的层次,这样既科学,也能很好的降低城市这一特征维度。具体操作如下,例如一线城市北京,上海,广州,深圳合并,赋值为1,同样的,二线城市合并为2,三线城市合并为3,以此类推。 (2)经纬度特征的引入 上述几种对地理位置信息的处理都是基于类别型的,我们还可以把类别型特征转化为数值型特征,通过引入经纬度来实现,具体操作:将地理位置一个特征变为经度和纬度两个特征,比如:我们把北京市,用经度39.92,纬度116.46,两个特征替换掉。
(3)构建地理位置的组合特征,地理位置差异特征 例如UserInfo_2,UserInfo_4,UserInfo_7,UserInfo_8,UserInfo_20,都是城市地理信息,我们可以两两比较,构造diff_24(UserInfo_2,UserInfo_4),当这两个特征值一样时,diff_12为1,否则为0,一次类推,可以构造类似diff_27,diff_28,.......等特征。
以上几种对地理位置的处理方法,可以根据效果进行选择,从而选择最适合的方法。
(1)将成交时间字段Listinginfo处理成数值型的特征,直接当成连续值来处理。
(2)将成交时间离散化,按照一定的间隔(如以10天为一个区间),即将日期010离散为1,日期1120离散为2,以此类推。
除去上述的特征处理方法外,其余的都做独热向量编码。
根据这个表提供的信息,我们可以从中抽取用户修改信息次数,修改信息时间到成交时间的跨度,每种信息的修改次数等等特征,至于提取的哪个特征具有区别性可以做个简单的统计分析,每种特征下违约率的分布是否由于不同的取值发生明显的变化。
类似的从登录信息表里提取了用户的登录信息特征,比如登录天数,平均登录间隔,以及每一种操作代码次数等等特征。
比较高效的一种方法是基于模型的特征排序方法, 这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此采用这种 方法,基于 xgboost 来做特征选择,xgboost模型训练完成后可以输出特征的重要性,据此可以保留 TopN个特征,从而达到特征选择的目的。
赛题数据的类别比例接近13:1,采用两种解决类别不平衡问题的方法,代价敏感学习,过采样,本案例情况不适合用过采样,故应该在训练模型时设置类别权重。
Logistic regression + L1正则化
Xgboost + bagging
randomforest
多模型blending(模型融合)