###Scrapy框架
最近在做一个叫做TianTian的Django项目,数据是通过爬虫获取的,爬虫用的框架就是Scrapy
一开始我是想,用到了再查,毕竟主要是想做东西,爬虫框架当作工具用到的时候再翻一翻就行。然而,在操作的过程中发现不经过系统的学习,效率实在低了太多。
所谓工欲善其事必先利其器,在浪费了大量的时间在研究Scrapy零碎模块的用法上之后,决定还是从文档看起,从示例看起,然后再应用到自己的项目上.
爬虫的办法有很多,除了框架以外,我们还可以利用一些优秀的工具,比如BeautifulSoup和requests结合,但是成熟的框架必定有值得我们学习的地方,熟悉一下是很有必要的。^_^
####资源传送门:Scrapy1.0文档
###03.28更新
今天效率比较高,代码部分基本已经更完了. 资源传送门:Xpath教程
###03.29更新
今天更新了CrawlSpider这个类的示例 这个类主要有以下特点:
- 有一个rule元组 可以满足我们在一个页面内抓取我们想要的链接
- rule元组的执行顺序是从上倒下依次执行
- Rule对象可以为指定格式的url定义回调函数和一些其它的规则
- Rule参数里面如果设置了follow 意味着在捕获到的页面里面也要执行一遍rule元组里面定义的所有抓取规则
- 像这个例子里面 我们设置page的follow为True 也就是持续跟进
- 实践证明跟进的时候捕获的url不会和前面已经捕获过的重复