crawl4j: A Java repository from huzpsb

Crawl4j

Try it yourself! 在线Demo

在线Demo是以2345网址导航和某OIer博客为原点，各抓取十分钟（共二十分钟的抓取量）的效果。

Crawl4j是一个开源的互联网搜索引擎。你可以使用它在一个小时内索引上万个互联网站点，并进行毫秒级检索。
Crawl4j致力于为个人提供可自行部署的搜索引擎，让每个人都能拥有自己的搜索引擎，而不是被少数大公司垄断。
每个人都可以使用Crawl4j来创建自己的搜索引擎，而不需要任何专业知识。

网页版搜索正在研发中。

Crawl4j架构上追求精简、别致。因此，Crawl4j会尽力追求：

Crawl4j可能不会去考虑：

Crawl4j需要Java 8或以上版本。
对于普通用户，只需要从Release页面下载最新的jar包并运行即可。
我们提供交互式的指南，让你可以轻松地使用Crawl4j。

对于开发者，请自行阅读并理解源代码。
一般来说，如果您只是想调用Crawl4j的API，那么您只需要关注search包下的类即可。
~~就三个类，每个也就几十行，不会这都看不懂吧？杂鱼❤，真是杂鱼呢..~~

请参考BukkitHTTP部署。

Crawl4j的开发目前处于早期阶段，因此我们欢迎任何形式的贡献。
你可以通过提交Issue来提出你的想法，或者直接提交Pull Request。
目前而言，我们正在着手完成：

1，Crawl4j目前处于早期阶段，因此可能会有很多问题。并且设计上Crawl4j就不是为企业准备的。
如果有因为Crawl4j的缺陷导致的任何损失，我无法承担任何责任。如果不能接受这一点，请不要使用Crawl4j。

2，Crawl4j对robots.txt的支持尚未完善，由于robots.txt的规范性问题，Crawl4j可能会无法正确解析robots.txt。
在使用时，请务必手动再次确认robots.txt的规范性。

3，请在通过修改代码来修改Crawl4j的行为，与新建索引库时，务必注意相关规定与条款。
在网站使用者不同意这么做的时候，你不应该这么做。否则请自行承担法律责任。

Gitee
镜像仅供代码与Release加速下载使用。