/2018-KUAISHOU-TSINGHUA-Top13-Solutions

2018中国高校计算机大赛--大数据挑战赛 Top 13-Solutions

Primary LanguagePython

2018-KUAISHOU-TSINGHUA-Top13-Solutions

2018**高校计算机大赛--大数据挑战赛 Top 13 Solutions

初赛A Top 2,初赛B Top 5

 复赛Final 13 
 每一次相遇都是久别重逢,下一次站在答辩台上又是何年何月,对得起自己,对得起青春。
 队友的RNN:https://github.com/totoruo/KuaiShou2018-RANK13-RNN

题意简述:给出用户在快手APP上1-30日的历史行为,预测接下来7天(31-37)的活跃用户。定义活跃为任意一张表出现过,不考虑冷启动。

框架思考
1. 等长滑动  [1,16] [2,17] ... [8,23]  ---> Predict [15,30]
2. 不等长滑动 [1,16] [1,17] ... [1,24] ---> Predict [1,30]
特征工程:
Tips: 以下Feature都是较为通用的,但是在不等长框架2中,需要对所有涉及到距离的计算做平滑,即除以时间窗口的长度 

对APP-LAUNCH、ACTION、VIDEO表
	1.对时间序列进行编码
		编码方式考虑两种:
			a. 将用户活跃天数视为二进制数,按二进制方式对活跃天数进行加权,越接近预测日期权重越高,如6天的窗口,1,3,5 --- 101010 将其倒置,010101,转化为十进制数21 
			`ans += binary_day[i]*(2**i)`
			b. 直接按离预测日期距离进行加权
			`ans += binary_day[i]*(1/(end_date-i))`

	2.对时间序列进行描述性统计
		一级统计特征: mean,std,median,max,min,(max-min),mode,count,nunique (在APP表中,count==nunique)
		二级统计特征: skew,kurt,mad
		用户登录的频域周期性: Var(fft(X['day']))
		用户登录的星期周期性: Get_Mode(X['week']) 

	3.对时间序列与预测日期进行时间天数交互
		该用户最后一次登录距离预测日期的长度   end_date+1-x['day'].max()
		该用户倒数第K次登录距离预测日期的长度  end_date+1-get_second_day(x,k)
		最后一次和倒数第二次的距离 x['day'].max()-get_second_day(x,2)

	4.差分一阶时间序列
		用户最大/最小间隔多少天登录一次 Diff Max/Min
		用户平均登录间隔 Diff Mean
		用户登录间隔的稳定性 Diff Var
		用户登录间隔的周期性 Var(fft(X['day'])) 

对ACTION表的特殊处理
	1.对时间序列进行衰减系数编码
		操作数/当前天数-预测日期的距离 sigma_ans += np.log(ans[i]/(window_len-i))

	2.对时间序列与预测日期进行操作数交互
		该用户最后一次/倒数第二次登录 观看Page、Action的分布 如看了3次Page 0,4次Page 1,2次Action 1,没有的行为用0填充
		将多组行为拆成子图,即可实现统计User在不同页面的分布,如只在Page0发生的行为的描述性统计,mean,std等 (对Action)
		该用户最后一次/K次操作当天,Count VIDEOID/AuthorID
		最后一次和倒数第二次间隔中,Count VIDEOID/AuthorID

	3.对Page,Action进行User的全局展开
		统计每一种行为在该用户整个行为序列里的比例,如 5次点击Page 0,该用户共点击10次 Page 0,那么此处Ratio1 为0.5
		统计每一种行为在当天用户里所有行为的比例,如 该用户900次点击 Page 0,当天共有1000次点击,那么此处Ratio2 为0.9
		上述两种统计,可以有效防止刷单行为,正常的行为序列应当是较为平滑的点击序列,一旦出现峰值,如举报行为居多的,观看同一视频的,即可判定为刷单的特征

	4.计算用户观看VIDEO的贡献序列
		def GongXianDu(df):
		    d11 = df.set_index('video_id')
		    d11['gongxian_rate'] = df.groupby('video_id').size() 
		    d11['gongxian_rate'] = d11['gongxian_rate'] / d11['video_watched_times']
		    meand = d11['gongxian_rate'].mean()
		    sumd = d11['gongxian_rate'].sum()
		    stdd = d11['gongxian_rate'].std()
		    skeww = d11['gongxian_rate'].skew()
		    kurtt = d11['gongxian_rate'].kurt()
		return sumd,meand,stdd,skeww,kurtt
		temp = train_act.groupby('user_id').apply(GongXianDu)

    5.计算用户是否有追星行为
    	最喜欢的作者有无更新行为
    	用户看过的视频还有多少人爱看(区分小众与大众)
	def FavAuthorCreate(df):
	    most_author = df.groupby('author_id').size().sort_values(ascending=False).index[0]
	    create_video_num = len(df[df['author_id']==most_author]['video_id'].unique())
	    watch_other_video_num = len(df[df['author_id']==most_author]['video_id'].unique())
	    watch_other_video = 1 if watch_other_video_num>1 else 0
	    return create_video_num , watch_other_video

对REGSITER表的挖掘
	1.注册周期性,如周末的促销活动,最直观的Feature就是Week
	2.周期性的交互,如在周末特定的Type组合
		register['week'] * register['device_type']
		register['week'] * register['register_type']
	3.类别特征间的交互,如 register['device_type'] * register['register_type']
	4.计算不同类别的使用人数,如 register_log.groupby(['register_type'])['user_id'].transform('count').values
		可以计算device_type,week_rt,week_dt,rt_dt
	5.计算不同类别的转化率(需滑窗计算),groupby(['count_label_ratio'])['regsiter_type','device_type'].transform('count').vaules
模型选择
Snake 的 糖尿病特征选择框架 https://github.com/luoda888/tianchi-diabetes-top12
在保留必选特征后(Encoder/FFT) 设置阈值产生两套特征
树模型: LGB 框架1 
	   XGB 框架2
FFM : Xlearn 按特征重要性筛选TopK个特征后计算
xDeepFM 输入序列特征/Category特征
CNN/RNN 输入序列特征
模型融合
本题模型融合收益极高,我们尝试了3种方式进行模型融合,按效果来计算
	Top 3 Stacking 没卵用,如果用同一套特征甚至掉分
	Top 2 加权融合 相似性都是0.98 0.97左右,0.97可以有1个千的收益,0.98大概是7-8个万
	Top 1 对半Blending 如用第一个滑窗测试,第二个滑窗测试,两折的Blending 收益是1.2个千
感言
首先感谢队友一直努力,到最后没有放弃,本来打算对这个题的思路写很多,但是想想自己还是菜了点,就算了。
最近这几个比赛,平安11,腾讯12,快手13,真的是10名以外的王者。
也有反思自己,很多时候挖特征的思路不太对,太喜欢一把梭,忽略了具体数据背景,忽略了具体变化
数据挖掘多的应该是自己的思考,而少一些套路性的东西。
当一切都有固定化的套路的时候,也少了很多乐趣。
快手群里还是氛围不错的,Kesci平台的态度确实也是我目前见过比较好的。
或许前天中午那个LGB的模型能跑出来,现在肯定是可以Top10的。
遗憾也有,咽下肚。

皇图霸业谈笑间,不胜人生一场醉。
走起,醉去!