/base_web_spider

封装了一个简单的全量爬行蜘蛛

Primary LanguagePython

全网爬虫

输入一个网址,异步爬取网站。
all_web_crawler 是支持mongodb 和 内存去重
all_web_es 是支持elasticsearch

优点

  • 对于小网站来说,不用在乎抓取逻辑,速度也是很快,加大开发效率

缺点

  • 对于网站数量很多的, 这个约到后期越慢

测试

  1. 知乎网1个星期 30W数据
  2. python门户网 1个小时 3000篇文章全部抓取