知乎是不是已经做了反爬虫了
zhaodp opened this issue · 6 comments
zhaodp commented
17-05-08 17:36:43,075 WARN us.codecraft.webmagic.downloader.HttpClientDownloader(HttpClientDownloader.java:100) ## code error 403 https://www.zhihu.com/api/v4/members/li-bo-xun-19/followees?include=data%5B*%5D.url_token&offset=0&per_page=30&limit=30
brianway commented
没有啊,�可能是服务器临时故障?
还是不行的话建议把运行环境详细列出来,截图说明。
zhaodp commented
前面几百条正常,一小会就403了,禁止访问
brianway commented
那有可能吧,我好久没爬了....
可以把 config.json 的延时改长一点试试。默认是 10 ms
brianway commented
我今天试了下,确实限流了,频率过快会被禁止访问,但只是暂时限制,封的不严重,放慢速度应该可以,我今天把代码重构了下,顺便把默认延时改到了500ms,不行的话需要你自己设计应对策略。
zhaodp commented
数据格式也发生了变化,字段少了很多
nanfeng007 commented
知乎做了反爬虫,检测你访问的频率,封你的IP