Scrapy的DrissionPage中间件
首先应该实现一个最简单的请求功能 然后是睡眠,等待,超时时间,自动处理弹窗,执行脚本,等待元素,点击, 截屏, 代理, 隧道代理,
调用request中的DrissionPageRequest方法,而不是scrapy.Request方法 启用middlewares中的DrissionPageMiddleware中间件
静态页面可以在dom加载完成后返回页面 由js动态获取数据的页面需要等待网络完成之后返回页面
能否添加页面加载状态的判断? #23:g1879/DrissionPage#23
request_cls = DrissionPageRequest
custom_settings = {
"DOWNLOADER_MIDDLEWARES": {
"scrapy_drissionpage.middlewares.DrissionPageMiddleware": 560,
}
}
yield self.request_cls(
url=url,
callback=self.parse,
meta=meta,
dont_filter=True,
)