天池新人赛 阿里移动数据推荐

数据来源:天池新人实战

赛题说明

在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:
U——用户集合
I——商品全集
P——商品子集,P ⊆ I
D——用户对商品全集的行为数据集合
那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。

数据说明

20000 用户的完整行为数据,及百万商品信息

第一部分 商品全集上的移动端行为数据

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behaviour_type 用户对商品的行为类型 见下表
user_geohash 用户空间位置标识 又经纬度通过保密算法生成
item_category 商品分类标识 字段脱敏
time 行为时间 精确到小时级别

用户行为信息表

行为 浏览 收藏 加购物车 购买
取值对应 1 2 3 4

第二部分 商品子集

字段 字段说明 提取说明
item_id 商品标识 抽样&字段脱敏
item_geohash 商品位置的空间标识 由经纬度保密算法生成
item_category 商品分类标识 字段脱敏

训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。