tomatoKiller/distributed-crawler-base-on-hadoop

这是一个基于Hadoop实现的通过广度优先方式进行爬虫的程序，爬取的对象是维基百科中文档对应所链接的其他文档的关系，爬取深度可以自由设定