/Elise

:hand: A simple, extensible, and support for a distributed crawler framework.一个简单的,高度可扩展的,并且支持分布式的爬虫框架

Primary LanguageJavaGNU Affero General Public License v3.0AGPL-3.0

Elise 伊莉丝 爬虫框架

简介

Elise是使用httpclient+jsoup/xsoup封装,由Elise-core模块提供高度可扩展的爬虫框架,支持同步/异步运行,多线程下载,html解析抽取等功能 Elise-distributed模块提供了一些分布式扩展,例如基于spring-kafka的消息管理器,基于lettuce封装的使用redis作为远程数据库的url去重管理器。 它完全基于Elise-core扩展,完全不改变任何使用方式。

状态

开发中roadmap...

使用说明

框架主要将爬虫分为四个大块,分别是任务调度器页面处理器下载器结果输出模块。 其中任务调度器中又由url去重处理器消息管理器组成。

模块说明

模块名 描述 进度
Elise-core 基本爬虫框架,支持手动编码/xpath/css/regex等多种抓取方式,支持单线程/多线程组合抓取 基本完成
Elise-distributed 爬虫基本框架之上提供了分布式支持,主要提供了基于kafka的任务调度器和基于redis的url去重管理器 基本完成
... 更多想法,欢迎讨论 随时在线~