SpiderClub/haipproxy

如何才能让代理池只爬取国内IP?

SylvanasSun opened this issue · 2 comments

因为某些不可抗力,用国外IP会被直接BAN,所以如何才能让代理池只爬取国内的IP?或者说管理待爬的代理网站列表的模块在哪呢(以便可以手动删除国外的代理网站)?

每个IP都对应明确的地区,你找个库 写个验证器过滤下

启动抓取器的时候,不启动GFW相关的即可

python crawler_booter.py --usage crawler common ajax