rong360-UserProfile-rank38-Soultion

比赛代码

risk 数据,直接一列一个特征,做简单的求和,求交叉; symbol特性:分三种方式处理:

  1. 直接将原始数据作为特性,
  2. 拆分一级类目和二级类目,因为有很多id包含多个类目, 所以做multi_hot编码,将多个one_hot 按行求和;
  3. 优化1,因为二级类目少,只要不同的一级类目 edge特征:
  4. 区分时间,月份,求每月权值,连接次数,求其平均; 求和等等,常规操作
  5. 按from_id,to_id做协同过滤,分值为权值除以连接次数的log 取出每个id的向量,对向量做编码,可以进一步用kmeans聚类
  6. 分别计算每个to_id的symbol中做的multi_hot ,再按from_id做group 作为from_id的特征 app特征: 直接将数据展开,做协同过滤,再聚类,和edge类似;

其他特征:id一般在数据库中都是按顺序自动生成的,一般大小都存在一定的时序关系;