/WeiboPredict

感谢大家的pull request

Primary LanguagePython

新浪微博预测大赛仓库

比赛相关内容请见:http://tianchi.aliyun.com/competition/information.htm?spm=0.0.0.0.Uon8Tx&raceId=5

更多内容请见Wiki:https://github.com/DGideas/WeiboPredict/wiki

##致谢

感谢 @lightslife 提供R语言的实现

感谢 @DeanChan 提供的更多赛题数据

#赛题数据备忘

  • 训练数据由\t依次分隔为:用户id, 微博id, 时间, 转发数, 评论数, 赞数, 内容
  • 预测数据由\t依次分隔为:用户id, 微博id, 时间, 内容

#关于赛题的数据

  • 训练数据共有45671不同的用户发布的1626750条微博
  • 预测数据共有24818不同的用户发布的275331条微博
  • 两文件用户有23603交集,根据作差计算得出,预测数据有1215个从未出现过的新用户
  • 额外地,共同存在的用户在训练数据共发布了1335158条微博
  • 共同存在的用户在预测数据共发布了265042条微博
  • 我们将基本没人点赞的用户定义为垃圾用户(无歧视),则有21035个垃圾用户

#文件说明

  • utrain.txt训练用户列表(45671个)
  • upredict.txt预测用户列表(24818个)
  • 特别地,因为文件过大,并没有将官方提供的原始训练和预测文件同步到git上

#关于作答

  • 如果提交结果均为0,0,0, 相关的准确率是33.815878%

#33.815878%