DataCollectorTools 项目用于封装和记录在 数据采集(爬虫) 开发过程中的一些工具和常用代码块。
- ArtificialTrailSamples: 人工滑动轨迹样本库,用于滑动缺口验证码的轨迹模式识别绕过。
- RequestsExtender: requests扩展器,通过hook的方式扩展requests的功能,用于辅助分析目标网站的API请求。
- JsonPathExtractor: 通过类xpath的"路径表达式"来提取json格式的数据
- MixQueue: 元素混合队列,针对多域名网站进行数据采集时,对下载队列元素进行“混合”来减少“单一域名”下的并发请求数。
- SliceQueue: 分片队列,用于进行数据持久化时减少IO读写次数。
- CTR: CURL命令转换器,用于分析/测试API请求,将chrome中复制的curl命令文本(str)转换成req对象(dict),exp-> python CTR.py curl.txt(curl文本文件)
- modify_chromedriver_cdc: 修改 chromedriver($cdc) 特征值
python setup.py install
python -m dctools
- 网站结构探测器
- 最小有效cookies检测器
- URL去重: 布隆过滤器实现