/Spider

php编写的一个爬虫类。支持多代理,重连。

Primary LanguagePHP

爬虫类

php写的一个爬虫类。采用TDD编写,主要功能是支持:

  1. 多个代理切换
  2. 失败重连
  3. 失败切换代理
  4. 可测试

反反爬虫的思路

  1. 伪装useragent
  2. 减低请求速度
  3. 使用代理

思路

一些比较大的网站都有反爬虫的功能,当同一时间发送请求过多的时候通常IP地址都会被禁止。所以 我们可以使用代理来防止我们真正的IP地址被封。但是如果同个代理请求速度过快的话,代理也会很 快被禁止,因此我们需要减低请求的速度。

而很多网站如果请求头的useragent没有设置的话,通常都会禁止访问的,因此我们需要伪装useragent。