模块 | netdiscovery-core | netdiscovery-extra | netdiscovery-selenium | netdiscovery-dsl |
---|---|---|---|---|
最新版本 |
NetDiscovery目前还是早期的版本,很多的细节正在不断地完善中。
对于Java工程如果使用gradle构建,由于默认没有使用jcenter(),需要在相应module的build.gradle中配置
repositories {
mavenCentral()
jcenter()
}
Spider可以单独使用,也可以添加到SpiderEngine中使用。
Spider中内置了很多组件。例如downloader就已经支持了好几种,支持热插拔随时替换,或者编写自己的downloader。
queue、parser、pipeline也都类似。其中,支持多个pipeline按照顺序执行。
在调试的时候,可以使用ConsolePipeline或者DebugPipeline
DebugPipeline打印的日志效果如下
SpiderEngine可以管理引擎中的爬虫,包括爬虫的生命周期。
http://localhost:{port}/netdiscovery/spider/{spiderName}
类型:GET
http://localhost:{port}/netdiscovery/spiders/
类型:GET
http://localhost:{port}/netdiscovery/spider/{spiderName}/status
类型:POST
参数说明:
{
"status":2 //让爬虫暂停
}
status | 作用 |
---|---|
2 | 让爬虫暂停 |
3 | 让爬虫从暂停中恢复 |
4 | 让爬虫停止 |
- user-agent-list:抓取常用浏览器的user agent
- 在“Java与Android技术栈”公众号回复数字货币的关键字,获取最新的价格
- 整合cv4j以及Tesseract,实现OCR识别的功能
- 增加elasticsearch的支持
QQ交流群:490882934