-
支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。
-
获取到的是搜索引擎的搜索结果的真实URL地址
-
跨平台,采用Python开发,所有代码完整开源.并且无捆绑后门风险,更新方便。网上大部分URL采集软件为WINDOWS下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。
-
强大的过滤功能。可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL,比如搜索结果中过滤属于youku.com的子域名URL。支持TXT配置过滤。
-
可自动去除重复URL
-
可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。
-
可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度
-
同时兼容python3和python2版本运行!良心开源小产品啊~~~
-
可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)
-
支持多进程同时采集,每个搜索引擎一个进程
-
可自定义每页采集时间间隔,防止被屏蔽
-
实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页搜索引擎结果的第X条数据
-
自动保存结果到result目录的txt文件,文件名为搜索的 关键词.txt
一般没有安装tld模块,使用 pip install tld 进行安装。或者官网下载(https://pypi.python.org/pypi/tld/0.7.6)
pip2 install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
-
如果要采集关键词为“hacker”的相关网站,采集搜索结果的前3页,则输入如下:
-
please input keyword:hacker
-
Search Number of pages:3
-
-
配置文件说明 config/setting.conf
-
[global]
-
savefile = True 是否保存文件
-
sleeptime = 0 每页采集间隔X秒
-
current_duplicate = False
-
end_duplicate = True
-
[filter]
-
filter_status = True
-
filter_urlparam = True 是否去除URL参数
-
filter_url = True 是否过滤域名
-
filter_title = True 是否过滤标题
-
[log]
-
write_title = True 是否把标题也写入日志文件
-
write_name = True 是否把搜索引擎名称也写入日志文件
-
[search]
-
baidu_search = True 是否开启百度搜索
-
sougou_search = False 是否开启搜狗搜索
-
so_search = True 是否开启360搜索
-
[pagesize]
-
so = 10 360搜索结果每页显示10条
-
baidu = 50 百度结果每页显示50条
-
sougou = 50 搜狗结果每页显示50条
-
[mysql] 导出到Mysql插件(等待后续更新)
-
status = False
-
ip = 127.0.0.1
-
database = superurl
-
user = root
-
password = root
-
table = url
-
field = url,title,pr,timestamp
-
[plugin]
-
pr = True 是否开启域名PR查询功能(等待后续更新)