收集写爬虫的相关技术资料以及有用的代码库

####技术博客

开源项目

  • Cola 一个高水平的分布式爬虫框架
  • Goose Html Content / Article Extractor
  • scrapy-redis 基于RedisScrapy的分布式爬虫框架
  • nvie/rq Python实现的一个简单的任务队列
  • Bloom Filter: 一个高效Url过滤,去重库
  • Scrapyd: 部署监控scrapy的工具
  • scrapy-client: 与Scrapyd结合调用addversion.json发布Spider
  • ScrapyJs: scrapy官方提供的JS解决方案
  • RSpider: 一个基于Scrapy-redis的分布式爬虫模板,实现了user agent的随机生成,多个爬虫同事运行,Scrapy状态通过graphite图形化监控