OceanBBBBbb/reptile_util

一整套爬虫解决方案工具类

Python

reptile_util

一整套爬虫解决方案工具类

一般每次爬虫的时候，都要根据情况构建一些爬虫条件，比如是用beautiful soup，还是webdriver还是直接Requests；有时候要处理反爬虫，创建代理池，这里把这些整理一下，生成几个拿来即用的工具类。

适用于Python3.*

ip_proxy

提供ip池获取ip的工具类。反爬中经常要用的ip池，这里用到了git上的一个开源项目获取ip，把他们的ip筛选后存库里，程序初始化后，随机取一个返回给调用者。

bs

直接请求爬取网页工具类。使用Request请求url，将内容转为BeautifulSoup后解析。

webdriver

使用浏览器内核模拟请求爬取网页工具类。里面有两个工具类（代码驱动位置换为启用环境的即可），有火狐和谷歌两种启用方式，传入url后，得到可解析的页面，也可以直接在返回的页面上进行一些操作。