收集写爬虫的相关技术资料以及有用的代码库
####技术博客
- Scrapy官方英文文档: http://doc.scrapy.org/en/latest/index.html
- Scrapy官方中文文档: http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html
- 使用Scrapy抓取数据
- Scrapy抓取豆瓣电影
- 知乎:如何入门爬虫
- Scrapy爬虫笔记【8-Scrapy核心操作+爬豆瓣图片+数据库链接】
- Python爬虫学习系列教程
- PhantomJs : 模拟浏览器解析js,js引擎
- CasperJs: 以及
phantomjs
的js引擎相比Phantomjs
更加简洁易用 - PhantomJs快速入门
- BeautifulSoup教程
- Cola 一个高水平的分布式爬虫框架
- Goose Html Content / Article Extractor
- scrapy-redis 基于
Redis
和Scrapy
的分布式爬虫框架 - nvie/rq
Python
实现的一个简单的任务队列 - Bloom Filter: 一个高效Url过滤,去重库
- Scrapyd: 部署监控
scrapy
的工具 - scrapy-client: 与
Scrapyd
结合调用addversion.json
发布Spider
- ScrapyJs:
scrapy
官方提供的JS
解决方案 - RSpider: 一个基于
Scrapy-redis
的分布式爬虫模板,实现了user agent
的随机生成,多个爬虫同事运行,Scrapy
状态通过graphite
图形化监控