爬虫类
php写的一个爬虫类。采用TDD编写,主要功能是支持:
- 多个代理切换
- 失败重连
- 失败切换代理
- 可测试
反反爬虫的思路
- 伪装useragent
- 减低请求速度
- 使用代理
思路
一些比较大的网站都有反爬虫的功能,当同一时间发送请求过多的时候通常IP地址都会被禁止。所以 我们可以使用代理来防止我们真正的IP地址被封。但是如果同个代理请求速度过快的话,代理也会很 快被禁止,因此我们需要减低请求的速度。
而很多网站如果请求头的useragent没有设置的话,通常都会禁止访问的,因此我们需要伪装useragent。