- 爬取数据要用的库
- 请求:requests
- 数据解析:
- lxml:使用xpath进行解析数据
- re:正则表达
- 下载网络文件:urllib:使用urlopen来打开网络文件
- 正则表达式
- 爬虫常用的几个正则
.
:匹配任意字符,换行\n除外*
:匹配前一个字符0次或无限次?
:匹配前一个字符0次或一次.*
:贪心算法, 匹配到不能匹配.*?
:非贪心算法, 匹配到就停止()
:内的数据作为结果输出
- 两个方法
- re.findall函数:匹配所有符合规则的内容,返回包含结果的列表
- re.sub函数:用于替换字符串中的匹配项。返回替换后的值
- 自动登录
- 使用session实现自动登录:其实就是使用session传data数据来实现自动等率,有些网站的session传data是加密的,这时候就不能使用该方式
- 使用cookie实现自动登录:其实就是传cookies参数实现,需要提前登录一次,获取cookie,一般cookie有7天的时效。
- 使用ajax技术的数据的获取
- 直接访问其数据的服务器:问题是很多网站都对url加密,而且有时效性。
- 使用selenium: 模拟浏览器操作,适合绝大部分网站
- 框架
- scrapy框架