特别说明:这个项目最初源于对自己爬虫代码的整理以及技术规整,因此部分爬虫源码可能因为网站改版已经不可用,验证码识别方面因为我改良版本用于工作中不可开源,因此采用熊猫的cnn模型以及冷月的滑动破解模型,上传前均亲测可用,且已得其本人授权。
仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat
本项目由URLTEAM维护
项目简介:
运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。
为以后的采集任务快速开展留下基础代码。
如今项目会包含多项技术的样例代码.
项目起因
本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。
在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用
你可以做什么: 提交你觉得难以采集的网站 联系方式: a83533774@gmail.com
项目结构树:(有待更新)
https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt
重点项目:
1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}
2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}
3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}
5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}
6:ip更换技术 {代理,tor,adsl}
7:请求伪造 {phantomjs,requests,selenium}
8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}
9:selenium {伪造请求头,支付宝模拟登陆}
UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}