/ipproxy

代理IP抓取

Primary LanguagePython

代理IP抓取

原理说明

通过不断在各大代理IP网站上抓取数据,同时在本地进行代理测试,提取可用的代理IP,并记录其时延,将数据以有序集合保存到redis sorted sets.

程序定期进行数据刷新,删除过期的代理IP,同时抓取新的数据.

代理IP分为三个匿名等级:高匿, 普匿, 透明; 程序中以3, 2, 1标记, 0:未知;可以通过修改validate.py中的r=[3, 2, 1]指定抓取等级;

保存在redis中的数据,key: proxy_ip_ping_3, proxy_ip_ping_2, proxy_ip_ping_1;

针对某网站时, 可以修改validate.py_ping()url值;

使用方法

新建python虚拟环境

$virtualenv ipproxy
$source ipproxy/bin/activate
$pip install -r requirements.txt

启动脚本

$python main.py

调用方法

参考 `example`

数据源

每日更新

实时更新