# 展会邮箱爬虫工具 一个用于爬取展会参展商邮箱和网址信息的自动化工具。 ## 功能特点 - ✅ **自动登录**:支持展会数据平台自动登录 - ✅ **智能爬取**:自动遍历展会列表和参展商信息 - ✅ **数据提取**:提取公司邮箱、网址等关键信息 - ✅ **断点续传**:支持从上次中断的地方继续爬取 - ✅ **数据备份**:自动备份数据,防止丢失 - ✅ **进度保存**:实时保存爬取进度 ## 文件说明 ### 核心文件 - `start_crawler.py` - 启动脚本(推荐使用) - `advanced_crawler.py` - 核心爬虫程序 - `utils.py` - 工具函数 ### 数据文件 - `showsfinder_data.xlsx` - 主数据文件(Excel格式) - `showsfinder_realtime_data.json` - 实时数据文件(JSON格式) - `progress.json` - 进度信息文件 ### 配置文件 - `requirements.txt` - Python依赖包列表 - `chromedriver.exe` - Chrome浏览器驱动 ## 使用方法 ### 1. 环境准备 ```bash # 激活虚拟环境 venv\Scripts\activate # 安装依赖 pip install -r requirements.txt ``` ### 2. 运行爬虫 ```bash # 方式1:使用启动脚本(推荐) python start_crawler.py # 方式2:直接运行核心程序 python advanced_crawler.py ``` ### 3. 输入凭据 程序启动后会提示输入: - 用户名 - 密码 ### 4. 开始爬取 程序会自动: 1. 登录展会数据平台 2. 获取展会列表 3. 遍历每个展会 4. 提取参展商信息 5. 保存数据到文件 ## 数据格式 爬取的数据包含以下字段: - `exhibition_name` - 展会名称 - `company_name` - 公司名称 - `emails` - 邮箱列表 - `website` - 公司网址 - `country` - 国家 - `crawl_time` - 爬取时间 ## 注意事项 1. **网络稳定**:确保网络连接稳定 2. **浏览器驱动**:确保chromedriver.exe在正确位置 3. **账号权限**:确保账号有访问展会数据的权限 4. **数据备份**:程序会自动备份数据,但建议定期手动备份 ## 故障排除 ### 常见问题 1. **登录失败**:检查用户名密码是否正确 2. **浏览器启动失败**:检查chromedriver.exe是否存在 3. **数据提取失败**:可能是网络问题或页面结构变化 ### 日志查看 查看 `crawler.log` 文件了解详细运行信息。 ## 更新日志 ### v2.0 (2025-06-22) - ✅ 修复iframe刷新问题 - ✅ 优化弹窗关闭逻辑 - ✅ 改进数据记录机制 - ✅ 简化文件管理 - ✅ 增强错误处理 ### v1.0 (2025-06-20) - 🎉 初始版本发布 - ✅ 基础爬取功能 - ✅ 数据保存功能 ## 📄 许可证 本项目仅供学习和研究使用,请遵守相关法律法规。 --- **祝您使用愉快!** 🎉 # grap-list