/ZSYH2022

招商银行2022FinTech精英训练营

Primary LanguagePython

招商银行2022FinTech精英训练营

  • A榜第九 B榜第二十六

环境配置

numpy==1.19.5 pandas==1.1.5 scipy==1.5.4 scikit-learn==0.24.2 lightgbm==3.3.2 tqdm==4.62.3

A榜思路

  • 原始特征简单处理,统一减二,(基于2是出题方为了脱敏进行的变换)
  • 特征交叉 +-x/、group组合以及数值与类别变量交叉
  • 特征重要性进行特征遍历筛选,选择线下高于一定得分的模型(使用不同特征组合)进行融合
  • A榜线上线下相对较为一致,提升比较稳定
  • 完整特征大约需要50G内存(在笔记本上请谨慎运行)

B榜思路

  • 观察完数据与其他选手分享的得分之后就一个思路 找毒特 !!
  • 训练集与测试集分布不一致的特征-删除
  • 首先通过对抗验证的思路找到auc指标远大于0.5的特征,(这些特征名中有较大一部分带有CUR,猜测测试集中的数据取自和训练集不同的年份,导致差异显著)遂全部删除带有CUR的特征
  • 然后玄学删除特征 (总结发现的主要规律是线下越低,线上越高【奇怪的现象】)
  • 上一步骤主要通过特征重要性,迭代删除最重要的特征(和A榜做法相反,以获得更低的线下得分和更高的线上得分)
  • 提交进行玄学测试(次数有限,做的很差))