比赛相关内容请见:http://tianchi.aliyun.com/competition/information.htm?spm=0.0.0.0.Uon8Tx&raceId=5
更多内容请见Wiki:https://github.com/DGideas/WeiboPredict/wiki
##致谢
感谢 @lightslife 提供R语言的实现
感谢 @DeanChan 提供的更多赛题数据
#赛题数据备忘
- 训练数据由
\t
依次分隔为:用户id, 微博id, 时间, 转发数, 评论数, 赞数, 内容 - 预测数据由
\t
依次分隔为:用户id, 微博id, 时间, 内容
#关于赛题的数据
- 训练数据共有
45671
不同的用户发布的1626750
条微博 - 预测数据共有
24818
不同的用户发布的275331
条微博 - 两文件用户有
23603
交集,根据作差计算得出,预测数据有1215
个从未出现过的新用户 - 额外地,共同存在的用户在训练数据共发布了
1335158
条微博 - 共同存在的用户在预测数据共发布了
265042
条微博 - 我们将基本没人点赞的用户定义为垃圾用户(无歧视),则有
21035
个垃圾用户
#文件说明
utrain.txt
训练用户列表(45671
个)upredict.txt
预测用户列表(24818
个)- 特别地,因为文件过大,并没有将官方提供的原始训练和预测文件同步到git上
#关于作答
- 如果提交结果均为
0,0,0
, 相关的准确率是33.815878%
#33.815878%