比赛链接:
Ps: 应该改名为Keep Overfiting
我们初赛的方案就是通过追踪时间、设备、ip和经纬度等属性的变化来建模判断UID是否为黑产链,没啥复杂的操作,事实证明,这个方案的稳健性比较差,但不影响我开源。
复赛可通过删除分布差异较大的特征以及对使用的特征Rank化来一定程度上解决分布问题。
话说,我万万没想到transaction文件毒性这么大。
- gen_stat_feat.py 统计特征
- gen_w2v_feat.py word2vec特征
- lgb_train.py lgb训练模型
两份特征建模加权8:2比例融合即可0.792+,单独统计特征加UID列建模即可0.795。