/wbdc2021_rank2

微信大数据挑战赛 baseline打比赛

单模型应该能拿复赛B榜第二。融合没融好

paddle开源:https://aistudio.baidu.com/aistudio/projectdetail/2536106?contributionType=1

其他Top开源: Kaggle Jane Street Market Prediction Rank1:

比赛期间读了数百篇文章,从只会用MLP的初学者阶段开始慢慢学习,最后算是有一点收获进步,欢迎相关领域的大佬交流工作(wx:zhouyz9452)。比赛建模只是工程中的一小部分,没必要神话某个模型。

  • 队友的模型、建模方式比较独到,更有学习价值
  • 几乎无手工特征
  • DCNv1,从keras官网找的baseline (https://keras.io/examples/structured_data/wide_deep_cross_networks/)
  • 模型没调参过,精调参可能有进一步提升
  • 加入初赛数据有一定提升
  • 加测试集数据有提升
  • no trick,不盲目崇拜高级模型,好好做好基础就行,数据为本
  • end2end向量比预训练向量的效果更好
  • 结合end2end和预训练向量有一定提升
  • embedding layer 比 generator 更好用

和其他队伍重合的实验结果:

  • sigmoid作为gate效果更好
  • MMoE与线上分数更接近,DCN分数线下虚高
  • 完播率直接等权重加进去没用,因为这里预估的是CTR,目标不一致。

image