eudemon000/base_web_spider

封装了一个简单的全量爬行蜘蛛

Python

全网爬虫

输入一个网址，异步爬取网站。
all_web_crawler 是支持mongodb 和内存去重
all_web_es 是支持elasticsearch

优点

对于小网站来说，不用在乎抓取逻辑，速度也是很快，加大开发效率

缺点

对于网站数量很多的，这个约到后期越慢

测试

知乎网1个星期 30W数据
python门户网 1个小时 3000篇文章全部抓取