NEWSREC: A Python repository from lazygoat644

此代码使用天池实验室GPU模式即可复现

python版本:天池实验室默认版本3.6.4即可

解题思路： 1)用户画像：包含用户的基本信息、历史行为、短期行为（如：活跃度）、兴趣内容和个人偏好（如：字数偏好、设备习惯、时间习惯）等多个维度的数据，是给用户做个性化推荐的基础。 2)文章画像：包含主题、文章热度（此赛题不太有用）、字数和创建时间等。 3)特征工程：包含文章的类别属性、主题属性、关键词信息、内容分析、人群偏好和统计特征等比较全面的描述和度量，是新闻内容和质量分析的基础，也是做好用户与文章个性化匹配的基础。 a)相关性特征：可以理解为语义特征或者字面特征，用于描述用户和内容是否匹配。比较常见的匹配有：分类匹配、topic匹配、关键词匹配、媒体来源匹配等。 b)上下文特征：包括用户的位置、时间、移动设备、联网状态等，这些就是bias特征，也能由此构建一些匹配特征。 c)热度特征：包括文章的ctr、分类热度、topic热度等，这种内容热度信息不仅在推荐特征中起着重要作用，而且在用户冷启动的时候也非常有效。 d)挖掘类特征：例如协同特征、聚类特征等，这类特征并非考虑用户的历史，而是根据用户点击行为分析不同用户的相似性，比如点击相似、兴趣相似或者属于同一个类簇，从而获取到新颖的结果，扩展了模型的探索能力，也能有效的解决越拖越窄的问题。 4)召回算法：包含多个通道的召回模型，例如协同过滤（itemcf、usercf等）、主题模型、内容召回、矩阵分解等。（召回是从海量文章中，挑选一小部分文章，组成候选文章，可以降低排序的过程） 5)排序算法：对多个通道召回的内容进行统一的打分排序，选出最优的少量结果，这里常用的模型有lr、gbdt、lgb LGBMClassifier（机器学习模型）、lgb LGBMRanker（排序模型）、fm、简单加权和stacking（模型融合思路）以及DNN的一些模型（还有CTR模型（二分类模型）中的DIN（深度学习模型），排序模型中的LambdaRank(pair-wise）)。 a)基于协同过滤：汇总所有用户（user）和文章（item）的行为，利用集体智慧进行推荐。主要分为两大类，User-CF和Item-CF b)基于embedding向量：一方面是文章实体的embedding表示，另一方面是通过word2vec等方式获取的。 c)基于DNN召回：利用深度神经网络，根据用户的基础特征和上下文环境，来模拟矩阵分解的过程 d)基于矩阵分解：协同过滤的核心是相似度计算，比较依赖用户行为，如果用户行为矩阵比较稀疏，计算结果不稳定，或者用户u没有对文章的相似度得分，可以得到很好的解决。

本代码只做了：Item-CF召回 --> 排序

lazygoat644/NEWSREC