/spiders

python spiders 学习和深入

Primary LanguagePython

###python爬虫学习

  • 爬取数据要用的库
    • 请求:requests
    • 数据解析:
      1. lxml:使用xpath进行解析数据
      2. re:正则表达
    • 下载网络文件:urllib:使用urlopen来打开网络文件

  • 正则表达式
    • 爬虫常用的几个正则
    1. .:匹配任意字符,换行\n除外
    2. *:匹配前一个字符0次或无限次
    3. :匹配前一个字符0次或一次
    4. .*:贪心算法, 匹配到不能匹配
    5. .*?:非贪心算法, 匹配到就停止
    6. ():内的数据作为结果输出
    • 两个方法
    1. re.findall函数:匹配所有符合规则的内容,返回包含结果的列表
    2. re.sub函数:用于替换字符串中的匹配项。返回替换后的值

  • 自动登录
    • 使用session实现自动登录:其实就是使用session传data数据来实现自动等率,有些网站的session传data是加密的,这时候就不能使用该方式
    • 使用cookie实现自动登录:其实就是传cookies参数实现,需要提前登录一次,获取cookie,一般cookie有7天的时效。

  • 使用ajax技术的数据的获取
    • 直接访问其数据的服务器:问题是很多网站都对url加密,而且有时效性。
    • 使用selenium: 模拟浏览器操作,适合绝大部分网站

  • 框架
    • scrapy框架