一个神奇的工具箱,拿回你的个人信息。
What is INFO-SPIDER
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、**移动、**联通、**电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源**博客、简书。
Features
- 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
- 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
- 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下。
- 数据源丰富:本项目目前支持多达24+个数据源,持续更新。
- 数据格式统一:爬取的所有数据都将存储为json格式。
- 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
- 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
- 文档丰富:本项目包含完整全面的使用说明文档和视频教程
Screenshot
QuickStart
依赖安装
工具运行
-
进入 tools 目录
-
运行
python3 main.py
-
在打开的窗口点击数据源按钮, 根据提示选择数据保存路径
-
弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.
-
在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)
数据源
- GitHub
- QQ邮箱
- 网易邮箱
- 阿里邮箱
- 新浪邮箱
- Hotmail邮箱
- Outlook邮箱
- 京东
- 淘宝
- 支付宝
- **移动
- **联通
- **电信
- 知乎
- 哔哩哔哩
- 网易云音乐
- QQ好友
- QQ群
- 生成朋友圈相册
- 浏览器浏览历史
- 12306
- 博客园
- CSDN博客
- 开源**博客
- 简书
数据分析
- 博客园
- CSDN博客
- 开源**博客
- 简书
计划
- 提供web界面操作,适应多平台
- 对爬取的个人数据进行统计分析
- 融合机器学习技术、自然语言处理技术等对数据深入分析
- 把分析结果绘制图表直观展示
- 添加更多数据源...
Visitors
📌Changelog
点击展开 Changelog
-
2020年7月10日
- 更新GUI布局
- 添加GitHub、QQ好友、QQ群数据源
-
2020年7月12日
- 修复QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail、Outlook数据源
- 添加生成朋友圈相册功能
-
2020年7月14日
- 修复京东、淘宝、支付宝、12306数据源
- 添加Chrome浏览记录功能
-
2020年7月17日
- 修复**移动、**联通数据源
- 添加知乎、哔哩哔哩、网易云音乐数据源
-
2020年7月19日
- 添加博客园、CSDN、开源**、简书数据源
- 编写使用说明文档
- 录制使用视频教程
-
2020年7月30日
- 添加博客园数据分析功能
- 使用pyechart绘制图表并生成html文件保存在数据目录下
-
2020年8月18日
- 修复部分bug
- 更新README.md
License
GPL-3.0