/website-crawler

抓取站点全部链接

Primary LanguageJavaScript

运行

yarn start 运行 src\index.js,修改run函数参数即可

特性

  • 支持全站抓取
  • 支持按目录抓取
    • 可使用队列模式抓取
  • 支持断点续传
  • 支持代理设置
  • 支持黑名单系统
  • 支持对下级子域名的统计
  • 支持自定义处理函数
  • 支持单页抓取

TODO

  • 对二级域名开启自动抓取任务