- User-Agent
- Connection
- Content-Type
- 对称
- 非对称
- 证书
- 模拟浏览器发送请求
- 正则
- bs4
- xpath
- 原理: 指定标签元素, 属性或内容
- 定位标签:
- 云打码
- 模拟登录
-
代理 -> 中转 -> 间接 -> 快代理/西祠/
-
匿名度: 透明 / 匿名 / 高匿
- 多进程 / 多线程 (弊端: CPU资源有上限)
- 进程池 / 线程池 (弊端: 也有数量上限)
- 单线程 + 异步协程(py 3.4添加的)
- event_loop(事件循环)
- coroutine(协程对象)
- task(任务) / future
- async(定义协程)
- await(挂起阻塞的执行)
- 获取ajax动态数据
- 模拟登录
- puppeteer / playwright
- 无头浏览器, 自动化
- 浏览器驱动: chromedriver (版本映射匹配)
- item / process_item
- mysqlPipeLine(object) 一个管道类对应数据存储一个平台