rong360

融360天机大赛

拒绝推断

2016年1月,机构A通过自建风控模型开始放贷,初期获得了良好的收益。随着时间的推移,机构A发现在样本通过率5%不变的前提下,机构逾期率由2016年1月的5%逐步升至2017年7月的15%,大量坏账导致机构A由盈利陷入亏损境地。公司模型人员仔细检查模型,发现其在训练集和测试集上都表现很好,并没有任何异常,百思不得其解。 在金融信贷场景中,放款机构会通过模型评分筛选用户,评分较好的用户可以获得放款,评分较差的用户直接被拒绝,机构只能获得放款用户样本的好坏标签,对于大量拒绝用户的还款情况无法获得。随着时间的推移,机构手中的训练样本都是“评分较好”的通过用户,而没有“评分较差”的拒绝用户,由此训练的模型在“评分较好”用户中表现越来越好,在“评分较差”用户中却无法得到任何验证。 但是,金融风控模型真实面对的客群却包括了“评分较差”的用户,模型在“评分较差”用户中无法得到验证,导致训练的模型越来越偏离实际情况,甚至通过了大量应该被拒绝的坏用户,致使大量坏账出现,直接带来巨大经济损失。因此,在只有最优质的放款用户好坏标签的情况下,如何保证建模对所有放款用户和拒绝用户都有良好的排序能力,是金融风控模型需要解决的重要问题。解决该问题可以是传统的拒绝推断技术,也可以尝试其他机器学习技术,参赛者可自行选择。

1.具体内容

  训练样本:从2018.1.1到2018.5.1放款用户样本,信用评分top30%的样本给出每个样本是否逾期,后70%样本只有3000个给是否逾期。(约10万样本)
  验证样本:从2018.1.1到2018.5.1放款用户样本,验证集不提供样本是否逾期,参赛选手自行完成是否逾期预测后,可以提交至比赛平台评估结果。(约2万样本)
  测试样本:与验证样本来源相同且同分布。测试集不提供样本是否逾期,参赛选手只能在比赛最后的评比阶段将预测结果提交至比赛平台评估,且只能提交一次。(约2万样本)

2.我们需要你们完成

  对用户各类信用相关数据进行分析处理,挖掘数据价值。
  根据验证样本和测试样本的样本特点,从训练样本中选取合适的训练集,完成建模,保证模型在验证样本和测试样本上的效果。

特征挖掘

融360是**最大的网络贷款平台,平台的一端是亿级别有借款需求的小微企业和个人消费者,另一端是有贷款资金的万级别的金融机构(银行、小贷、担保、典当等)和百万级的金融产品,平台的职责是撮合借款用户和贷款,以及提供必要的风控服务。其中重要的一环是对用户的数据信息进行挖掘,进而全方位立体化的描绘用户特征,更好的服务用户及金融机构。这里分为几步:第一步是大数据化,就是把割裂分散的数据集中在一起,做成数据仓库;第二步是数据的结构化和网络化,即建立主体之间的联系,关联各种属性;第三步是挖掘和推理,即通过文本挖掘、网络的分析计算,得到想要的知识或特征。 本题要求参赛者根据题目中提供的用户数据(包括关联关系、危险行为、标签类型、app情况, 均已脱敏),通过数据挖掘技术,组合出有显著效果的特征,并利用这些特征构建模型预测用户的逾期情况。

1.具体内容

  训练样本:包括历史用户的信息数据及样本逾期情况。(约1.9万样本)
  验证样本:包括历史用户的信息数据,验证集不提供样本是否逾期,参赛选手自行完成是否逾期预测后,可以提交至比赛平台评估结果。(约4千样本)
  测试样本:与验证样本来源相同且同分布。测试集不提供样本是否逾期,参赛选手只能在比赛最后的评比阶段将预测结果提交至比赛平台评估,且只能提交一次。(约6千样本)
  附件中已经一次性给出所有样本相关的数据(均已脱敏),包括关联关系,危险行为、标签类型和app情况,供挖掘特征使用。

2.我们需要你们完成

  根据数据情况自由构建特征,要明确特征的生成方式及其意义,挖掘数据价值;
  完成建模,保证模型在验证样本和测试样本上的效果。

多金融场景下模型训练

融360是**最大的网络贷款平台,平台的一端是亿级别有借款需求的小微企业和个人消费者,另一端是有贷款资金的万级别的金融机构(银行、小贷、担保、典当等)和百万级的金融产品。通常,用户进入我们的平台后,自行选择最合适的金融机构和金融产品进行申请。因此,融360平台积累了大量不同时期、不同金额、不同期限、不同利率、不同市场环境下的借贷订单。在风控建模过程中,如何选择最合适的样本针对当前市场环境下特定金融产品建模,关系到所建模型在实际业务中的预测能力,直接影响金融机构的盈利能力。为此,我们提供平台上的部分数据,希望选手根据数据,解决实际问题。

1.具体内容

  训练样本:包括从2017.4.1到2018.5.1不同金额、不同期限、不同利率的金融产品样本,并给出每个样本的类型(属于大额分期贷或小额现金贷产品)是否逾期。(约10万样本)
  验证样本:2018.1.1到2018.5.1机构A的产品,验证集不提供样本是否逾期,参赛选手自行完成是否逾期预测后,可以提交至比赛平台评估结果。(约2万样本)
  测试样本:与验证样本来源相同且同分布。测试集不提供样本是否逾期,参赛选手只能在比赛最后的评比阶段将预测结果提交至比赛平台评估,且只能提交一次。(约2万样本)

2.我们需要你们完成

  对用户各类信用相关数据进行分析处理,挖掘数据价值,形成建模特征。
  根据验证样本和测试样本的样本特点,从训练样本中选取合适的训练集,完成建模,保证模型在验证样本和测试样本上的效果。