wnma3mz/wechat_articles_spider

有关爬取频率的设置问题以及单日上限咨询

leyuwei opened this issue · 4 comments

尝试了自己制作了Selenium的脚本用公众号图文推送的方案爬取,但大概到500条的时候,下一页按钮将会触发“系统错误”提示,页面将不再返回更多历史文章信息,想问下微信是否有在这个接口上设置单账号单日上限?
p.s.我的pc版本微信历史文章页面查看也显示访问异常,根本无法打开了。
使用您方案中提供的test_getURL.py测试,仍然遇到同样问题,爬取一段时间后即不再返回更多。
想咨询下是否有解决方案?非常感谢

  1. 你说的“系统错误”是否指的是系统频繁(繁忙)导致不能抓取?能否提供网页端的截图,再者就是每次抓取的间隔时间,提示系统错误之后,能否更换别的公众号进行查询(手动)?

  2. PC版本微信的历史文章访问异常是什么意思?我这边最新版本的可以正常打开,如果没办法打开的话。。。。这个test_geturl.py是咋测试的。且我这边没有遇到爬取一段时间不会返回,是不是已经全部抓取完成?希望提供更具体的信息,如上,截图、时间间隔等

感谢回复,
1、 现在等待几个小时以后就正常了,所以没法提供截图。系统错误提示是界面上方的一个警告弹窗,应当是指的系统繁忙无法抓取,且在我今天凌晨测试时,也无法更换别的公众号查询,点击查找到的公众号后,警告弹窗就会弹出,且不显示文章列表。
2、 使用test_GetUrl.py时需要先输入一些参数,我使用的是PC端微信+Fiddler手动抓取,但是很快就报错(两三分钟),然后提示KEY可能过期,程序中断,并在此时PC端微信我要爬取公众号的历史列表也无法点开。

感谢回复,
1、 现在等待几个小时以后就正常了,所以没法提供截图。系统错误提示是界面上方的一个警告弹窗,应当是指的系统繁忙无法抓取,且在我今天凌晨测试时,也无法更换别的公众号查询,点击查找到的公众号后,警告弹窗就会弹出,且不显示文章列表。
2、 使用test_GetUrl.py时需要先输入一些参数,我使用的是PC端微信+Fiddler手动抓取,但是很快就报错(两三分钟),然后提示KEY可能过期,程序中断,并在此时PC端微信我要爬取公众号的历史列表也无法点开。

  1. 那就是抓取频率太快,时间拉长,建议几分钟一页
  2. 同理,也是频率太快,时间拉长。这个被屏蔽了要等24小时

好的,我尝试一下调长间隔。