/SinaSpider

新浪微博爬虫(Scrapy、Redis)

Primary LanguagePython

##Sina_Spider1: 《新浪微博爬虫分享(一天可抓取 1300 万条数据)## ##Sina_Spider2: 《新浪微博分布式爬虫分享## ##Sina_Spider3: 《新浪微博爬虫分享(2016年12月01日更新)##

Sina_Spider1为单机版本。

Sina_Spider2在Sina_Spider1的基础上基于scrapy_redis模块实现分布式。

Sina_Spider3增加了Cookie池的维护,优化了种子队列和去重队列。


三个版本的详细介绍请看各自的博客。 遇到什么问题请尽量留言,方便后来遇到同样问题的同学查看。也可加一下QQ交流群:微博爬虫交流群

如果需要数据可以邮件联系我(bone_ace@163.com)