JF_URL是一款URL深度采集工具
python 3.6.8
URL采集能帮我们快速的采集符合需求的URL,市面上大部分的URL采集工具都是利用多个搜索引擎接口进行采集,基于黑名单过滤部分网址,最后再对结果去重。看上去没错,但却隐藏着几个缺点:
- 采集的网址都是被搜索引擎收录的,导致许多符合需求的URL无法采集到
- 过滤不细致,往往只设置了黑名单+去重,采集到的站点并不能保证是需要的
- 采集URL的关键词差不多,导致采集结果也差不多,意味着你好不容易找到一个漏洞站点可能已被许多人利用过
- 采用多线程技术,显著提高运行效率
- 提供两个入口,搜索引擎接口或导入采集好的网址
- 传入关键字爬取到符合需求网址再次自动进行友链爬行
- URL自动存活探测,筛选出的URL是符合条件且存活的
- 导入的URL文本筛选出符合条件的URL,不进行友链爬行
- 导入的URL文本筛选出符合条件的URL,再进行友链爬行
- 用户高度自定义:URL黑白名单、URL网站标题黑白名单,URL网页内容黑白名单
JF_URL仅能在取得足够合法授权中使用,在使用本工具过程中,您应确保自己所有行为符合当地的法律法规。 如您在使用本工具的过程中存在任何非法行为,您将自行承担所有后果,本工具作者不承担任何法律及连带责任。 除非您已充分阅读、完全理解并接受本协议所有条款,否则,请您不要安装并使用本工具。 您的使用行为或者您以其他任何明示或者默示方式表示接受本协议的,即视为您已阅读并同意本协议的约束。
配置文件config.ini说明:
- None不检测该关键词,目前只支持或逻辑,即符号|
- 不检测可用None,字段不可放空,否则脚本无法正常运行
- state只支持0/1,0关闭导入文本的友链爬行,1开启导入文本的友链爬行
- 关键字优先级:网址黑 > 网址白 > 标题黑 > 标题白 > 网页内容黑 > 网页内容白
演示: 注:爬取结束后结果以txt格式保存在当前目录下 1、通过搜索引擎接口进行爬取教育类站点 2、通过导入的文本先筛选出教育类站点,不进行友链爬 3、通过导入的文本先筛选出教育类站点,再进行友链爬取
更多玩法等你自行研究。。。
- 自定义线程数
- 自定义代理地址
- 听从其它意见或建议