##大工搜索引擎与文本挖掘课程作业
这是基于阿里移动推荐算法竞赛的一份作业。 作业评测网址为:ir.dlut.edu.cn/onlinejudge
本项目主要应用于对阿里移动推荐算法竞赛的数据处理,特征提取及训练等。
YML.BPN项目是c++实现的BP神经网络的源代码
FeatureController是C#实现的用于抽取434维特征的特征抽取程序,使用前需要配置App.Config中的数据库连接字符串
GBDT的代码并没有单独提取出来,而是在BPNetwork工程中GBDT.py的文件中
###下面是阿里移动推荐算法竞赛第二期数据的一些统计:
共包含消费记录:12256906条
包含o2o商品id数:480723条,去重后为310582条 (有些商品会同时属于多个类别,所以去重之后记录数减少了)
###特征包括:
购物车转化率:购买的/加入购物车量,注意对用户及商品进行分别统计 收藏转化率:购买的/收藏量 点击转化率:购买量/点击量
转化率说明:这里的收藏对于一个用户来说只是一个商品状态,只能有一次记录,不像点击操作,同一个用户可以进行很多次。
所以这里的收藏转化率是指,在已经收藏了该商品的用户里,有多少个用户购买了。
则可以看出,点击转化率有两个概念
- 在已经点击过该商品的用户中,有多少个用户购买了。
- 该商品平均被点击多少次,会被购买。(后期计算即可得出)
###实验记录
- 用1天的数据进行LR训练,结果在2.3~4%之间,加上转化率特征之后,结果会变差