基于scrapy的小说爬虫:爬取笔趣阁的制定小说并下载到txt,速度很快哦。
最近一直在学爬虫,从最基本的urllib
到requests
、beautifulsoup
到分布式爬虫框架scrapy
,现在终于感觉可以上路了。所以先基于scrapy
重写了我以前做的小说爬虫,代码都很简单,就不注释了。相关的知识点在我的python爬虫系列文章后面都会介绍到。
主要的参考文献:
1.搜索小说名,用requests+lxml
爬取结果,并让用户选择结果,返回小说目录的url
2.scrapy
根据目录url解析小说章节数以及每章的具体url,其中把小说章节数送给item
再到itempipeline
保存,每章的url则是生成异步请求,结果送给parse_chapter
进行下一步的解析
3.parse_chapter
解析每一章的内容,替换没用的\xa0
,写入到item
里,返回交给pipeline
处理
4.对于pipeline
为了写入文件章节顺序是对的,每次返回的item
都先保存到包括当前章节编号和内容
的字典里
5.爬取完毕,对字典进行排序,写入到小说文件中
需要安装:
scrapy
requests
直接pip instal scrapy requests
即可,如果scrapy
安装不了需要编译没成功的话,那么到这个网站下载自己对应编译好的再用pip安装即可
在项目目录
中打开shell
运行
scrapy crawl xiaoshuo -a name=小说名 --nolog