招商银行2022FinTech精英训练营
- A榜第九 B榜第二十六
环境配置
numpy==1.19.5 pandas==1.1.5 scipy==1.5.4 scikit-learn==0.24.2 lightgbm==3.3.2 tqdm==4.62.3
A榜思路
- 原始特征简单处理,统一减二,(基于2是出题方为了脱敏进行的变换)
- 特征交叉 +-x/、group组合以及数值与类别变量交叉
- 特征重要性进行特征遍历筛选,选择线下高于一定得分的模型(使用不同特征组合)进行融合
- A榜线上线下相对较为一致,提升比较稳定
- 完整特征大约需要50G内存(在笔记本上请谨慎运行)
B榜思路
- 观察完数据与其他选手分享的得分之后就一个思路 找毒特 !!
- 训练集与测试集分布不一致的特征-删除
- 首先通过对抗验证的思路找到auc指标远大于0.5的特征,(这些特征名中有较大一部分带有CUR,猜测测试集中的数据取自和训练集不同的年份,导致差异显著)遂全部删除带有CUR的特征
- 然后玄学删除特征 (总结发现的主要规律是线下越低,线上越高【奇怪的现象】)
- 上一步骤主要通过特征重要性,迭代删除最重要的特征(和A榜做法相反,以获得更低的线下得分和更高的线上得分)
- 提交进行玄学测试(次数有限,做的很差))