ActStrady/spiders

python spiders 学习和深入

Python

###python爬虫学习

爬取数据要用的库
- 请求：requests
- 数据解析：
  1. lxml：使用xpath进行解析数据
  2. re:正则表达
- 下载网络文件：urllib:使用urlopen来打开网络文件

正则表达式
- 爬虫常用的几个正则
1. .：匹配任意字符，换行\n除外
2. *：匹配前一个字符0次或无限次
3. ？：匹配前一个字符0次或一次
4. .*：贪心算法, 匹配到不能匹配
5. .*?：非贪心算法, 匹配到就停止
6. ():内的数据作为结果输出
- 两个方法
1. re.findall函数：匹配所有符合规则的内容，返回包含结果的列表
2. re.sub函数：用于替换字符串中的匹配项。返回替换后的值

自动登录
- 使用session实现自动登录：其实就是使用session传data数据来实现自动等率，有些网站的session传data是加密的，这时候就不能使用该方式
- 使用cookie实现自动登录：其实就是传cookies参数实现，需要提前登录一次，获取cookie，一般cookie有7天的时效。

使用ajax技术的数据的获取
- 直接访问其数据的服务器：问题是很多网站都对url加密，而且有时效性。
- 使用selenium：模拟浏览器操作，适合绝大部分网站

框架
- scrapy框架