/ML

machine learning

Primary LanguageJupyter Notebook

互联网风控学习资源

整理各个平台上比较好的文章

CSDN

知乎

黄姐姐HJJ 推荐以下文章:

微信公众号

公众号: 雷帅快与慢 推荐下面这些文章

GitHub

Quora 美版知乎

Medium

hackernoon

dev.to

书籍推荐

  • 西瓜书-南瓜书
    对已经有一定算法实践经验的同学,是一本很好的算法入门理论书。 西瓜书讲解相比统计学习方法更详细,而且有南瓜书推导补充,基本可以自学。
  • 统计学习方法
    有了西瓜书的基础以后,可以再看看这本书,做一个知识点补充。 学完之后,基本上常见算法都明白原理。新算法也有探索学习的能力。
  • 风控要略-互联网业务反欺诈之路
    一本兼具全面性和深度的互联网风控入门书籍。
  • 精益数据分析

Google Scholar

Kaggle

网课

风控策略工程师的入门课程

第一课

体验产品流程,找到风控的介入点,风控的不同返回怎样影响用户体验。
这应该是所有风控策略工程师入门的第一课。

第二课

搞清楚坏人的获利点,明白坏人每一次作恶的成本和收益。
我们对抗的目标,不是杜绝坏人,而是尽量提升坏人的作恶成本。当作恶的成本和收益接近的时候,坏人就没有动力继续作恶,风险也会随之收敛。

第三课 黑产调研

准备工作:未实名的手机卡 小号 独立的手机(可选) 独立的网络(可选)
钱(用来发点咨询费 和 购买黑产资源 黑产软件)

第四课 风控策略工程师的日常

风控行业有两类角色,风控算法工程师和风控策略工程师。
风控策略工程师的日常如下:

  • 黑产/灰产研究
  • 大盘监控-分析漏过-更新策略
  • 深度建模
  • 行业新解决方案/技术方案跟进

第五课 终极问题:怎样说明对业务产生的价值?

支付类场景:初级的风控讲准召,中级的风控说止损,高级的风控算成本。

准确率、召回率,源自有监督评估体系,是对训练模型的预期效果描述。缺点是:

  1. 很多时候难以评估或者无令人信服的评估方法
  2. 指标和业务缺乏关联,适用于平台型风控,不适合业务部门风控。

止损金额在营销反作弊、支付反作弊等涉及到钱的场景是非常好的指标。好处是:

  1. 指标易于理解,方便和业务经营指标联系起来,争取业务领导的关注。
  2. 指标计算简单,只用对拦截进行汇总即可。相比准召的人工抽样等方法,计算快,人力投入少。

高级的风控,在我看来,应该是能看清楚行业大势的。

  1. 这个行业价值多少,黑产获利空间多少,推算黑产从业人员有多少。
  2. 产业链怎样配合,有哪些自动化工具,变动趋势是怎样的。
  3. 为什么我们要在这个方向是投入人力,不投入风险敞口有多少。

第六课 工作中容易产生的误区

  1. 避免走极端,算法大于一切或者算法毫无用处都不可取

    • 不可否认,风控行业普遍存在重算法,轻运营的现象。不管是升级答辩还是工作面试,算法都是必不可少的重点。但是实际工作中,要避免得模型狂热病,认为模型可以解决一切问题。模型只是一个解决问题的工具,不是灵丹妙药,手段单一全靠模型最终是会失望而归的。

    • 另外一种,听了一些模型失败的案例以后,就觉得一切都可以靠业务理解解决。为自己不学习找借口的,当然更是大大的误区。
      模型狂人的同学,碰壁后总有一天可以认清现实,是可见时间内能走到正确路上的。
      一直龟缩在自己的舒适区,不愿意学习的同学,不管当前再厉害,总有一天是会落后的。

  2. 可解释性
    基本上所有风险场景都要求良好的可解释性。原因有几个:

    • 只要做管控就免不了误伤,面对VOC给不出合理原因是灾难性的。风控的专业性和信任度都会受到质疑。
    • 最终决策权应该在策略人员手里。我们希望模型提供更多的洞察和证据,成为我们可靠的参谋,而不是只能提供一个是否恶意的结果。
    • 可解释的模型可以像玩搭积木一样堆叠构建更加高层和强大的模型
    • 可解释性 天然可以对抗过拟合欠拟合
  3. 数据 算法先优化哪个? 一位风控大佬曾经说过:数据决定了能达到的上限,而算法只是去逼近这个上限。

    • 项目前期,尽可能的对比不同算法的baseline,选择最优的几个算法作为候选集。保底有个80分的算法,剩下的时间用来优化90分,工作体验会比较好。
    • 项目中期,一般大量时间是用来做特征工程。这部分推荐kaggle入门项目,看看大佬怎样一番特征工程*操作搞出很好的效果,在工作中绝对是够用了的。
      可以读一读这篇文章,也会对风控特征工程有一个入门认识:无监督第二课:如何确认数据字典及做特征衍生
    • 在项目后期,一般大家会开始感受到瓶颈。
      • 这个时候建议先尝试接入更多新的数据源,拉高上限。
      • 其次,可以考虑再次回去体验产品流程或者潜伏黑产论坛与行业专业人士聊一聊。一般会有新的想法。
      • 继续钻研特征工程或者算法,一般不会有啥结果。

推荐文章:风控对抗中的常规特征及处置选择

风险场景

账号

营销

  • 薅羊毛

支付

广告

内容风控

  • 垃圾消息

场景负责人的角色定义

  • 权利:对场景的运营指标达成负责。对场景规则变更有决策权。
  • 责任:事故的第一责任人
  • 不敢承担责任,不敢决策的负责人,是不尽责的。

风控指标

准召:大部分情况,优先保证准确率。

风控分析

数据分析的三板斧,看趋势、看对比、看细分。解读监控报表亦如是。光有一个数据是无意义的,比较才能使其有洞见。怎么比?和过去比,和其他的比,分开了自己比。

Not A Regular RFM Analysis

大盘稳定性监控PSI

风控模型—群体稳定性指标(PSI)深入理解应用

数据可视化文章推荐:

专家规则之怎样设定阈值?

  • 散点图+分位点
  • 变异系数

风控算法

机器学习入门

有监督

当前的主流,有标签数据的首选

无监督-聚类

从经验上看,聚类的维度超过10维以后,结果就很难 聚类是一种非常好的从0开始认识数数据内部结构的的方法。使用聚类方法要注意的点如下: 1.一般5-15维结果特征直接输入模型可以有一个还不错的结果。 维度太高可以依次尝试:去掉相关性强的变量 根据业务解释保留可解释的变量 分模块聚类 自编码器进行主动降维等 2.轮廓系数(silhouette_score)计算量很大,可以考虑使用davies_bouldin_score 和 calinski_harabasz_score 等。 3.系数评估和PCA降维可视化都只是参考,可能和业务实际甚至是反向的,不要迷信。一切以业务实际为准。

异常检测 Outlier Detection | Anomaly Detection

  • Python Outlier Detection (PyOD)
    包含常见的,自编码器 AutoEncoders,孤异森林 isolation forest,KNN,PCA,One-class SVM等无监督异常检测工具,不一定要用,但是可以按图索骥了解可用的异常检测算法包。
    Anomaly Detection for Dummies
    有非常详细的各类异常检测算法对不同数据集的决策边界和判断结果。适合感性 直观的进行算法选择。

无监督-降纬

embedding

自编码器

PCA

图挖掘

Fraudar_D-Cube Fraudar算法在京东关系网络反欺诈中的应用

图聚类

Affinity Propagation:可以叫做近似传播|亲和力传播
ClusterGCN

其它

时间序列

时间序列预测&异常检测

gluonts MatrixProfile

Anomaly-ReactionRL

特征工程自动化

黑产调研

黑产部分还没开始写,希望尽可能覆盖海外黑产

黑产软件

暗网

黑产关键词-海外版

Phishing-SMS
Phishing-EMAIL
TextNow 短信收取平台

风控工具

号称可以检测异常proxy/VPN的网站

[IP Intelligence](https://github.com/blackdotsh/getIPIntel#easy-to-use-web-interface-without-any-coding 'a free tool that attempts to determine how likely an IP address is a proxy / VPN / bad IP using mathematical and modern computing techniques')
对应的ip查询结果查询网站
ipaddress

Hive SQL

关于Python Pandas scikit-learn,推荐kaggle上的titanic项目入门。

Python Pandas

scikit-learn

新的强力工具

Have Fun