/wenshu

Primary LanguagePython

wenshu

声明:该项目已不再更新,相关代码可能无法运行或者已失效。

几点说明

  1. 效率的关键在于IP资源,普遍采用代理的方式效率太低,花点时间你可以在代码中找到相关的技巧处理,这个很重要!
  2. scrapy是个优秀的框架,推荐使用,你可以采用其它类似的异步IO模型。
  3. wenshu网有很多服务器,你可以找找。
  4. 数字公司的防火墙服务其实值得好好研究。
  5. captcha目录是之前做的wenshu网验证码破解,目测正确率95%以上,不过已经用不着了,供研究学习。
  6. 关于瑞数,@sml2h3之前有过破解,我在初期尝试过他的版本,效率比较低,后续我因为没有跟进也不了解。建议采用pyppeteer类似的方案,实测效率要高几个数量级,项目中有相关代码,你也可以借鉴。
  7. 追求效率要进行各方面的综合优化,比如docid解密就挺费计算资源,你可以有自己的优化处理。
  8. 项目中还有些关于代理、wenshu网ip资源的研究,你可以参考,终极的办法是拿到真实IP。
  9. wenshu网经常更新,网上流传的代码或许都有问题,比如之前有docid解密失败就是vl5x.js文件有问题,你需要自己多些研究。

以上几点凭记忆写的,或许有不准确的地方。