tencent-contest: A Python repository from yfm

运行环境: ubuntu 14.04, 256g以上的内存, 1T以上的磁盘，nvidia 1080 ti, python2.7 Python环境: sklearn, lightgbm, tensorflow-gpu, xgboost 文件说明: src文件夹包含converters文件夹 converters文件夹包含如下：（1）pre-csv.py 将原始的数据文件进行拼表（2）combine_and_shuffle.py 将初赛数据与复赛数据拼一起，随机打乱（3）pre-dnn.py 生成dnn的特征数据文件（4）pre-gbdt.py 生成gbdt的特征数据文件（5）lgb_analyze_importance.py 利用lgb分析特征重要性（6）ensemble.py 对多个结果做加权组合（7）norm_ensemble.py 对多个结果进行归一化后再做加权组合

data文件夹主要用于存在数据

models文件夹用于存放模型，文件夹包含模型如下：
（1）lgb.py 训练lgb模型
（2）tf_NFM.py 定义nffm模型
（3）run_tf_nfm.py 将全部数据一次加载进内存来训练nffm模型
（4）run_tf_nfm_by_part.py 将数据分批次加载进入内存来训练nffm模型
（5）xgb.py 训练xgb模型

utils文件夹用于存放参数文件和辅助函数类：
（1）args.py args2.py args3.py donal_args.py nzc_args.py 都是参数文件，用于用不同的参数来训练模型
（2）tencent_data_func.py 定义了大量的特征工程及其他数据操作相关的辅助函数，由于迭代太多，里面有点杂乱

gbdt_run.sh文件可生成gbdt的特征数据文件，训练lgb模型。值得注意的是，gbdt的特征数据文件的生成需要耗费大量的时间，
本人使用了5台服务器跑了接近4天才将特征完全完成生成完，而lgb模型对我的成绩提升其实很少，lgb的成绩为0.760左右，
只为我的最终成绩带来了万分位的提升。如果机器不足，不建议生成gbdt的特征。而且gbdt的特征占用了大概500g的磁盘空间。

run.sh文件可生成dnn的特征数据文件，并训练lgb模型。值得注意的是，该文件只会跑一次dnn模型。实际上，dnn模型一般一轮收敛，
十分吃数据的分布，在同样的参数下，使用打乱样本顺序，训练多次结果取平均都可以获得4-5个千分位的提升。而我的dnn模型的单次成绩为
0.770~0.771之间，跑5-10次，取平均分数可以接近b榜的0.774-0.775之间。将参数和对正样本加权等改动，跑多次结果取平均
，可以到达0.775以上。

运行说明：将原始数据放进data文件，运行run.sh文件即可。值得注意的是，初赛的数据要在前面加 "chusai_"的前缀标志。向量特征（比如interest1等）的特征生成如果使用一台服务器，可能需要两天左右。 dnn模型的训练时间大概是2.5-3个小时之间。 lgb模型训练时间大概为10个小时左右。 xgb的训练时间大概是30多个小时。如果是xgb的loss function设置为pair rank，可能需要2天多的时间。

特征说明： dnn的特征主要包括6类特征：（1）原始onehot特征，比如aid，age，gender等。（2）向量特征，比如interest1，interest2，topic1，kw1等（3）向量长度统计特征：interest1，interest2，interest5的长度统计。（4）uid类的统计特征，uid的出现次数，uid的正样本次数，以及uid与ad特征的组合出现次数，组合正样本次数。（5）uid的序列特征，比如uid=1时，总共出现了5次，序列为[-1,1,-1,-1,-1]，则第一次出现时，特征为【】第二次出现时，特征为【-1】第三次出现时，特征为【-1，1】第四次出现时，特征为【-1，1，-1】第五次出现时，特征为【-1，1，-1，-1】（6）组合特征：age与aid的组合，gender与aid的组合，interest1与aid的组合，interest2与aid的组合。值得注意的是，上面是总的类别介绍，但是实际上在模型运行中，本人构造了大量的特征，做了一个大的特征集合，每次训练的是小的特征集合，最后融合。只是效果提升似乎也没有多明显。所以这里只选取了最优成绩的特征工程。

gbdt的特征主要包括：
（1）原始特征的转化率，如果是向量特征的话，则取转化率最大的作为表示
（2）原始特征的组合转化率，包括用户内部的特征组合，用户与广告的特征组合
（3）原始特征的出现次数，如果是向量特征的话，则取出现次数最大的作为表示
（4）原始特征的组合出现次数，包括用户内部的特征组合出现次数，用户与广告的特征组合出现次数
（6）uid的出现次数和转化率，uid与广告特征的组合出现次数和转化率
值得注意的是，gbdt的特征会进行用一个小的数据集进行遍历，对特征进行排序，最后分别取top200，top400的特征集合进行全集的训练。
在top200的情况下，线上的成绩为759左右。
top400的情况下，需要将数据分成两部分训练取平均，成绩为761左右。

模型说明：本人的最优模型为去年冠军的nffm模型，但是设计了一些过滤交叉的条件，比如广告内部的特征不做交叉。本人也尝试过多种其他模型的方案，但是单模型都比不过nffm模型。但本人在组合时尝试使用了其他dnn模型进行训练的结果来组合，由于没有控制变量对比（组合时同时加入了nffm不同参数的训练结果，以及nffm对正样本加权后的训练结果），不知道组合后的效果的提升是多少，甚至有可能是降低的也说不定。

yfm/tencent-contest