/reptile_util

一整套爬虫解决方案工具类

Primary LanguagePython

reptile_util

一整套爬虫解决方案工具类

一般每次爬虫的时候,都要根据情况构建一些爬虫条件,比如是用beautiful soup,还是webdriver还是直接Requests;有时候要处理反爬虫,创建代理池, 这里把这些整理一下,生成几个拿来即用的工具类。

适用于Python3.*

ip_proxy

提供ip池获取ip的工具类。 反爬中经常要用的ip池,这里用到了git上的一个开源项目获取ip,把他们的ip筛选后存库里,程序初始化后,随机取一个返回给调用者。

bs

直接请求爬取网页工具类。使用Request请求url,将内容转为BeautifulSoup后解析。

webdriver

使用浏览器内核模拟请求爬取网页工具类。 里面有两个工具类(代码驱动位置换为启用环境的即可),有火狐和谷歌两种启用方式,传入url后,得到可解析的页面,也可以直接在返回的页面上进行一些操作。