/crawler

爬取虎牙,斗鱼,抖音,B站,微博平台数据

Primary LanguageJavaScript

爬取热门平台数据

nodejs v6.4.0及以上

爬取平台

  • 虎牙:用户粉丝数
  • 斗鱼:在线人数,粉丝数
  • 抖音:作品点赞数,分享数,播放数,评论数
  • B站:作品弹幕内容,评论内容,每个视频的基本信息
  • 微博:粉丝数,关注数,每条微博的基本信息及评论内容

实现功能:

  • 爬取热门平台指定用户的数据,支持多用户爬取。
  • 实现代理IP,代理失败时重新获取代理IP,三次失败重试机会,三次都失败�则放弃该请求
  • 全量爬取:第一次爬取用户时为全量爬取
  • 增量爬取:定时每小时爬取一次,该功能业务以每小时爬取一次�数据,�爬取近一个月的作品。为何使用增量爬取,保证多用户时爬取的速度,避免数据存储�时冗余

启动

node start.js   //启动增量爬取
node startAll.js   //启动全量爬取

注意

  • 该功能没有做数据存储,因为需要分析数据,个人不懂的数据分析,所以把数据发送给大数据,让大数据存储分析