KDF5000/SpiderRef

爬虫资料汇总

收集写爬虫的相关技术资料以及有用的代码库

####技术博客

Scrapy官方英文文档: http://doc.scrapy.org/en/latest/index.html
Scrapy官方中文文档: http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html
使用Scrapy抓取数据
Scrapy抓取豆瓣电影
知乎：如何入门爬虫
Scrapy爬虫笔记【8-Scrapy核心操作+爬豆瓣图片+数据库链接】
Python爬虫学习系列教程
PhantomJs : 模拟浏览器解析js，js引擎
CasperJs: 以及phantomjs的js引擎相比Phantomjs更加简洁易用
PhantomJs快速入门
BeautifulSoup教程

开源项目

Cola 一个高水平的分布式爬虫框架
Goose Html Content / Article Extractor
scrapy-redis 基于Redis和Scrapy的分布式爬虫框架
nvie/rq Python实现的一个简单的任务队列
Bloom Filter: 一个高效Url过滤，去重库
Scrapyd: 部署监控scrapy的工具
scrapy-client: 与Scrapyd结合调用addversion.json发布Spider
ScrapyJs: scrapy官方提供的JS解决方案
RSpider: 一个基于Scrapy-redis的分布式爬虫模板，实现了user agent的随机生成，多个爬虫同事运行，Scrapy状态通过graphite图形化监控