superagent(http://visionmedia.github.io/superagent/ ) 是个 http 方面的库,可以发起 get 或 post 请求。
cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一个 Node.js 版的 jquery,用来从网页中以 css selector 取数据。
mysql主要主要负责连接mysql数据库,讲爬取到的数据存入数据库中
基本实现了功能,但是还有有缺陷,所有请求都是并发,尝试一次爬一万条,网站直接爬挂了,所有还有待优化,还有问题就是,所有的请求都是并发, 因为是爬取小说,所以希望爬到的数据是有序的,而现在是无序的,后期深入学习再优化吧