yrwdai/crawler

爬取虎牙，斗鱼，抖音，B站，微博平台数据

JavaScript

爬取热门平台数据

nodejs v6.4.0及以上

爬取平台

虎牙：用户粉丝数
斗鱼：在线人数，粉丝数
抖音：作品点赞数，分享数，播放数，评论数
B站：作品弹幕内容，评论内容，每个视频的基本信息
微博：粉丝数，关注数，每条微博的基本信息及评论内容

实现功能：

爬取热门平台指定用户的数据，支持多用户爬取。
实现代理IP，代理失败时重新获取代理IP，三次失败重试机会，三次都失败�则放弃该请求
全量爬取：第一次爬取用户时为全量爬取
增量爬取：定时每小时爬取一次，该功能业务以每小时爬取一次�数据，�爬取近一个月的作品。为何使用增量爬取，保证多用户时爬取的速度，避免数据存储�时冗余

启动

node start.js   //启动增量爬取
node startAll.js   //启动全量爬取

注意

该功能没有做数据存储，因为需要分析数据，个人不懂的数据分析，所以把数据发送给大数据，让大数据存储分析