路飞爬虫

http

  • User-Agent
  • Connection
  • Content-Type

加密

  • 对称
  • 非对称
  • 证书

requests模块(实战编码)

  • 模拟浏览器发送请求

urllib(过期/麻烦)

聚焦爬虫与数据解析

  • 正则
  • bs4
  • xpath
  • 原理: 指定标签元素, 属性或内容
  • 定位标签:

验证码

  • 云打码
  • 模拟登录

IP频率与代理伪装

  • 代理 -> 中转 -> 间接 -> 快代理/西祠/

  • 匿名度: 透明 / 匿名 / 高匿

异步爬虫

  • 多进程 / 多线程 (弊端: CPU资源有上限)
  • 进程池 / 线程池 (弊端: 也有数量上限)
  • 单线程 + 异步协程(py 3.4添加的)

协程

  • event_loop(事件循环)
  • coroutine(协程对象)
  • task(任务) / future
  • async(定义协程)
  • await(挂起阻塞的执行)

selenium

  • 获取ajax动态数据
  • 模拟登录
  • puppeteer / playwright
  • 无头浏览器, 自动化
  • 浏览器驱动: chromedriver (版本映射匹配)

scrapy

  • item / process_item
  • mysqlPipeLine(object) 一个管道类对应数据存储一个平台