/spiderman2

spiderman2 爬虫

Primary LanguageJavaApache License 2.0Apache-2.0

#Spiderman2

简单的说,这是一个网页爬虫工具,专门对网页内容进行抓取和解析
  • 性能
  • 架构简洁
  • 易用
  • 分布式
  • 插件
  • UI

要求:

  • Java8或以上

快速开始

dist目录下面有
- bootstrap.bat
- bootstrap.sh 

windows机器请执行bat, mac/linux机器请执行sh, 有任何问题留issue或评论

更多例子请参考

  • src/test/java/spiderman/*.java
  • src/main/resources/*-example.xml