user-churn

基于用户行为序列的流失率预测

背景：
深度学习不仅在NLP和CV领域取得了重要突破，在推荐与广告系统等经典互联网应用中也有很多应用。长期以来用户行为序列分析与预测都是推荐/搜索/广告等领域的重要课题。本文基于前人针对社交网络用户流失的分析方法，分析了音乐APP用户的行为习惯，建立了lightGBM和LSTM预测模型。
结论：
1.基于用户活跃天数的LSTM模型能有效预测用户的流失情况，效果(F1得分0.98)略低于经典的模型lightGBM(F1得分0.99)。
2.词向量与tsne结合的方式，能够有效的提取歌曲风格和用户关注话题信息。
3.用户流失(留存)最关键的因素是：最后1次使用日期，使用天数，平均每(活跃)天收听的歌曲数，是否vip客户，平均每(活跃)天操作次数，用具体的操作类型、操作页面、用户基础属性等因素关系不大。
方法:
1.用户行为序编码。
2.基于bert-embedding+tsne的词向量编码。
3.Kmeans聚类。
4.lightGBM分类与SHAP解释。
5.LSTM序列预测。
主要参考文献：
I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application
由于作者没有提供数据集，只能根据作者提供的源码，使用2021DIGIX赛题数据集近似复现。比赛数据（采样+脱敏后）抽取的时间范围是连续60 天的用户行为数据和行为对应匹配的用户、歌曲、歌手数据。
其他参考文献：
基于lstm和cnn的方法:ChurnPrediction,《自然语言处理：基于预训练模型的方法》4.6.7基于循环神经网络的情感分类
基于lightGBM的方法:客户流失预测及营销方案，源码,可解释机器学习-shap value的使用
推荐中的序列化建模：Session-based neural recommendation
DeepCTR：易用可扩展的深度学习点击率预测算法包
思考：
1.数据格式的整理占用了80%的时间，实际工作接触的数据往往会比竞赛数据有更多的异常。
2.由于作者未能提供原始数据，很多情况下只能猜测源码的思路，比较吃力，说明一个好的分享应该尽可能完整，方便复现。
3.深度学习的难度一方面在于模型本身(包括数学原理)的复杂，另一方面在于NLP/CV之外的案例很少，需要大量查阅+尝试才能形成匹配的思路。
4.硬件资源(特别是GPU)限制了很多从建模到调参的很多想法。
5.现实中大量的不均衡类别场景，如果能根据业务设计优化目标(损失函数)，也许会比经典的F1、混淆矩阵评估更有价值。

bigear2021/user-churn

user-churn