/pycrawler

整站爬虫

Primary LanguagePythonMIT LicenseMIT

pycrawler

花了几天时间写了一个爬取南京大学子网站所有网页的多线程爬虫,包含一些简单的URL处理规则和response的分析规则,可以很容易改成对其他网站的整站爬虫

url去重使用布隆过滤器,数据库层面用的还是MySQL,一个线程持有一个数据库连接