/Spider-bilibiliUser-active

基于Webmagic的爬取B站活跃用户信息的爬虫

Primary LanguageJava

基于Webmagic的B站活跃用户数据爬虫(深度遍历)

技术栈说明

  • 爬虫内核: Webmagic
  • 持久层:JDBC
  • 数据库:MySQL

程序说明

爬取数据项

  • mid:用户b站ID
  • nama:用户昵称
  • sex:用户性别
  • level:用户等级
  • sign:用户签名
  • faceUrl:用户头像图像URL
  • friends:用户关注数
  • fans:用户被关注数
  • playNum:用户播放视频数
  • birthday:用户生日
  • place:用户地点

样本数据

百度云 http://pan.baidu.com/s/1dFchDZj 验证码:b2fi