网络蜘蛛🕷️
[TOC]
大致思路是“抓取、解析、入库”,可选 “黑白名单、并发、定时任务”。
- superagent/cheerio/express
- superagent/cheerio/koa2/koa-router/eventproxy
- request/cheerio/async/node-schedule
- phantomjs/cheerio
- express-spider
- koa2-spider
-
前提是需安装 nodejs
-
在 express-spider 或 koa2-spider 目录执行
npm start
-
然后浏览器访问
http://127.0.0.1:3000或curl -get http://127.0.0.1即可