BDAP_PersonalizedRecommendation

大数据分析与处理-个性化推荐

1 问题描述

  1. 问题定义:利用已知的用户浏览历史,猜测用户兴趣,推荐用户新的信息。

  2. 问题抽象:给定用户行为矩阵X,X为m*n的矩阵,其中m为用户数,n为内容数。已知X中的一部分值,猜测未知值。

2 使用数据

  1. 数据来源:Netflix推荐竞赛的子集。

  2. 数据构成:10000个用户和10000部电影。

  3. 数据含义:用户行为数据代表用户对电影的打分,分数的取值范围是1-5。

  4. 数据集:

数据集名称 数据集大小 数据集构成 数据集用途
用户列表users.txt 10000行 每行一个整数,表示用户的id -
训练集netflix_train.txt 689万条 每行为一次打分,包括用户id(均出现在users.txt中)、电影id(1-10000的整数)、分数和打分日期 用于模型训练,占总数据量的80%
测试集netflix_test.txt 172万条 同上 用于模型测试,占总数据量的20%
电影名称movie_titles.txt 17770行 每行为电影id,年份,名称 用于选做部分

3 实验

  1. 数据预处理
  2. 协同过滤
  3. 基于梯度下降的矩阵分解算法
  4. 利用额外信息改进推荐算法