Scrapy

Scrapy-Redis分布式爬虫搭建搜索引擎网站 github.com/iamcbl/ScrapySpider 2019年05月 - 2019年06月个人学习Python爬虫而实现的项目。使用Scrapy爬取知乎网站数据10万条，数据保存到Elasticsearch，Django框架搭建搜索引擎网站。采取构建ip代理池、user-agent随机切换、调用云打码API措施来突破反爬虫机制，降低约40%被屏蔽的请求数，使用Redis数据库实现分布式爬虫与数据缓存，减少约50%数据查询时间

BaolanChen/ScrapySpider

Scrapy