Elise是使用httpclient+jsoup/xsoup封装,由Elise-core模块提供高度可扩展的爬虫框架,支持同步/异步运行,多线程下载,html解析抽取等功能 Elise-distributed模块提供了一些分布式扩展,例如基于spring-kafka的消息管理器,基于lettuce封装的使用redis作为远程数据库的url去重管理器。 它完全基于Elise-core扩展,完全不改变任何使用方式。
开发中roadmap...
框架主要将爬虫分为四个大块,分别是任务调度器,页面处理器,下载器,结果输出模块。
其中任务调度器中又由url去重处理器
和消息管理器
组成。
模块名 | 描述 | 进度 |
---|---|---|
Elise-core | 基本爬虫框架,支持手动编码/xpath/css/regex等多种抓取方式,支持单线程/多线程组合抓取 | 基本完成 |
Elise-distributed | 爬虫基本框架之上提供了分布式支持,主要提供了基于kafka的任务调度器和基于redis的url去重管理器 | 基本完成 |
... | 更多想法,欢迎讨论 | 随时在线~ |