大数据分析与处理-个性化推荐
-
问题定义:利用已知的用户浏览历史,猜测用户兴趣,推荐用户新的信息。
-
问题抽象:给定用户行为矩阵X,X为m*n的矩阵,其中m为用户数,n为内容数。已知X中的一部分值,猜测未知值。
-
数据来源:Netflix推荐竞赛的子集。
-
数据构成:10000个用户和10000部电影。
-
数据含义:用户行为数据代表用户对电影的打分,分数的取值范围是1-5。
-
数据集:
数据集名称 | 数据集大小 | 数据集构成 | 数据集用途 |
---|---|---|---|
用户列表users.txt | 10000行 | 每行一个整数,表示用户的id | - |
训练集netflix_train.txt | 689万条 | 每行为一次打分,包括用户id(均出现在users.txt中)、电影id(1-10000的整数)、分数和打分日期 | 用于模型训练,占总数据量的80% |
测试集netflix_test.txt | 172万条 | 同上 | 用于模型测试,占总数据量的20% |
电影名称movie_titles.txt | 17770行 | 每行为电影id,年份,名称 | 用于选做部分 |
- 数据预处理
- 协同过滤
- 基于梯度下降的矩阵分解算法
- 利用额外信息改进推荐算法