brianway/webporter

知乎是不是已经做了反爬虫了

zhaodp opened this issue · 6 comments

17-05-08 17:36:43,075 WARN us.codecraft.webmagic.downloader.HttpClientDownloader(HttpClientDownloader.java:100) ## code error 403 https://www.zhihu.com/api/v4/members/li-bo-xun-19/followees?include=data%5B*%5D.url_token&offset=0&per_page=30&limit=30

没有啊,�可能是服务器临时故障?
还是不行的话建议把运行环境详细列出来,截图说明。

前面几百条正常,一小会就403了,禁止访问

那有可能吧,我好久没爬了....
可以把 config.json 的延时改长一点试试。默认是 10 ms

我今天试了下,确实限流了,频率过快会被禁止访问,但只是暂时限制,封的不严重,放慢速度应该可以,我今天把代码重构了下,顺便把默认延时改到了500ms,不行的话需要你自己设计应对策略。

数据格式也发生了变化,字段少了很多

知乎做了反爬虫,检测你访问的频率,封你的IP