本爬虫代码用于下载Annual Reviews期刊pdf文件,只供学习分享,切记用于商业用途。如有侵权,请联系删除。
- 有一个Annual Reviews会员账号,如无请科学找账号。
- 本地电脑装有python3环境。
- 安装了scrapy,如未安装可自行百度教程。
使用会员账号登录网站,查看登录 cookie,替换AnnualreviewsPdfPipeline.py
和AnnualReviews.py
代码的 cookie
如无会员账号,请科学找账号。
在setting.py
修改FILES_STORE为 pdf 下载目录。
Annual Reviews对学科期刊采取分卷的目录,你可以下载多个
在AnnualReviews.py
修改urls的值为你的真是下载页面,可以放多条
class AnnualReviews(scrapy.Spider):
name = "annual-reviews"
urls = [
'https://xmu.liu06.ltd/https/77726476706e69737468656265737421e7e056d2263e66457f049ba98e5c26222a0a60acda/toc/soc/1/1'
]
还需要的地方是对 pdf 下载链接的处理:
def parse(self, response, **kwargs):
...
# 这行代码,需要根据实际情况拼接出真实的下载地址
pdf_url = 'https://xmu.liu06.ltd/' + pdf_urls[0].lstrip('/')
...
执行命令:scrapy crawl annual-reviews
,开启下载。
一次不要下载太多,防止账号被封。如果是科学找账号,亲测只会封IP,不会封号,可随意。
目前暂未支持IP代理池。
- 解析页面,下载pdf