/HiSpider

通用爬虫,多页面抓取,爬取动态页面,人工智能破解验证,脚本支持,代理池维护管理,

Primary LanguageHTML

HiSpider

全地形爬虫系统

主要功能:

  • 提取任意文章页标题、作者、时间、点赞、评论和正文等
  • 站点首页各个模块信息,如版块名、内容链接等
  • 支持静动态,AJAX爬取
  • 多页面爬取,大数据分析
  • 验证,登录,上传等
  • 自定义脚本,定时爬取,发送邮件报告,监控网站、签到等
  • 代理池管理系统

项目流程

  • 基本框架和静态网页抓取

    1. 获取html代码
    2. 分析html代码
    3. 过滤html代码
    4. 人工协助生成数据结构
    5. 数据分析
    6. 创建文件夹并保存文件
    7. 发送报告
    8. UI界面
    9. 机器学习生成数据结构
  • 动态页面抓取