/zhihuImgSpider

爬知乎问答下面的所有图片

Primary LanguagePython

知乎爬虫

1:用get请求抓知乎图片

第一次修改 2017年5月4日15:33:36

该爬虫写于大概一个星期前,为了有趣好玩。

发觉并不难写,但写完发觉只爬到了一小部分,很少的一部分图片。

该答案下面有几百张图片,但只下载了十几张。

然后我用fiddler抓包显示的是get请求,然后返回了json数据,因为json处理太难看了,我就没有处理它

百度知乎csdn等博客我发觉全部都是post请求,我以为我抓错包了???

然后用chrome重新抓取还是一样返回json,最后花了很长时间解决死鬼难看的json数据。

最后发觉知乎把代码改了,所以以前网上的都用不了了,所以,摊手?

直接改craw() 这里面的问题的数字编号即可。

while循坏,我已开始设定offset<24 感觉爬到的图片足以,如果你觉得不够改为100也行。

ps. :该代码在 2017年5月4日15:50:15 测试有效

2:用selenium+firefox抓知乎图片

第二次修改 2017年5月17日12:47:38

发觉第一次抓图片,那个get请求过一段时间就用不了了。

具体原因是header文件中有一个是authorization这个选项,知乎过一段时间就会更改这个选项。

所以还是有点问题的。

第二次用selenium+firefox 或者 selenium+PhantomJS抓取都是ok的。

注意firefox和phantomjs返回的网页源代码是不同的!!!不同的,所以数据清理时不同的。

这里提供firefox具体的操作。

ps. :该代码在 2017年5月17日12:54:25 测试有效