基于用户行为序列的流失率预测
-
背景:
深度学习不仅在NLP和CV领域取得了重要突破,在推荐与广告系统等经典互联网应用中也有很多应用。长期以来用户行为序列分析与预测都是推荐/搜索/广告等领域的重要课题。本文基于前人针对社交网络用户流失的分析方法,分析了音乐APP用户的行为习惯,建立了lightGBM和LSTM预测模型。 -
结论:
-
1.基于用户活跃天数的LSTM模型能有效预测用户的流失情况,效果(F1得分0.98)略低于经典的模型lightGBM(F1得分0.99)。
-
2.词向量与tsne结合的方式,能够有效的提取歌曲风格和用户关注话题信息。
-
3.用户流失(留存)最关键的因素是:最后1次使用日期,使用天数,平均每(活跃)天收听的歌曲数,是否vip客户,平均每(活跃)天操作次数,用具体的操作类型、操作页面、用户基础属性等因素关系不大。
-
方法:
-
1.用户行为序编码。
-
2.基于bert-embedding+tsne的词向量编码。
-
3.Kmeans聚类。
-
4.lightGBM分类与SHAP解释。
-
5.LSTM序列预测。
-
主要参考文献:
I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application
由于作者没有提供数据集,只能根据作者提供的源码,使用2021DIGIX赛题数据集近似复现。 比赛数据(采样+脱敏后)抽取的时间范围是连续60 天的用户行为数据和行为对应匹配的用户、歌曲、歌手数据。 -
其他参考文献:
-
基于lstm和cnn的方法:ChurnPrediction,《自然语言处理:基于预训练模型的方法》4.6.7基于循环神经网络的情感分类
-
基于lightGBM的方法:客户流失预测及营销方案,源码,可解释机器学习-shap value的使用
-
思考:
-
1.数据格式的整理占用了80%的时间,实际工作接触的数据往往会比竞赛数据有更多的异常。
-
2.由于作者未能提供原始数据,很多情况下只能猜测源码的思路,比较吃力,说明一个好的分享应该尽可能完整,方便复现。
-
3.深度学习的难度一方面在于模型本身(包括数学原理)的复杂,另一方面在于NLP/CV之外的案例很少,需要大量查阅+尝试才能形成匹配的思路。
-
4.硬件资源(特别是GPU)限制了很多从建模到调参的很多想法。
-
5.现实中大量的不均衡类别场景,如果能根据业务设计优化目标(损失函数),也许会比经典的F1、混淆矩阵评估更有价值。