- 实现推荐系统中主要使用的Rank算法,并使用公开数据集评测,所有算法均已跑通并完成完整的训练,最终生成
saved_model
和checkpoint
供tf-serving
部署;
- 使用微信视频号推荐算法比赛数据集,数据详情请见 ./dataset/README.md;
- 为了贴合工业界使用情况,使用
TensorFlow Estimator
框架,数据format为Tfrecord
; - 算法实现在
./algrithm
下,每个算法单独一个文件夹,名字为普遍接受的大写算法名称,训练入口为文件夹下对应的小写算法名称py文件,如DIN文件夹下的din.py
文件为训练DIN模型的入口,具体请见末尾的示例部分; - 每个算法都实现了自己的
model_fn
,没有使用Keras
高阶API,只使用TensorFlow
的中低阶API构造静态图; - 算法超参数可由
--parameter_name=parameter_value
方式传入训练入口脚本,超参数定义请见训练入口脚本tf.app.flags
部分; - 单任务模型使用数据集因变量中的
read_comemnt
评测,多任务模型使用read_commet
like
click_avatar
三个任务评测;
*Best_read_comment_Auc为每个model各自调参后的测试集最大Auc,每个model各自的评测见每个model路径下的result.md
Model | Paper | *Best_read_commet_AUC | *Best_like_AUC | *Best_click_avatar_AUC |
---|---|---|---|---|
ESMM | [2018] Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate | - | - | - |
MMOE | [2018] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts | 0.91860557 | 0.8126400 | 0.8139362 |
PLE | [2020] Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations | 0.91965175 | 0.8136461 | 0.8154559 |
*Best_xx_AUC为所有超参数组合中的最高值,横向的三个AUC可能不在同一组超参数中。
*由于ESMM的结构特殊性,不适用于微信视频号数据集,故只实现了静态图,并没有评测。
# 先执行以下命令确保生成了tfrecord
# cd ./dataset/wechat_algo_data1
# python DataGenerator.py && cd ..
cd ./DIN
# 训练时可自定义参数
python din.py --use_softmax=True