node-crawler

Nodejs爬虫工具，可抓取图片和文本

安装

在本地新建一个目录test，然后下载所有文件，并放到test目录中，在CMD/shell中进入到该目录，执行如下代码安装依赖包：

$ npm install

$ node app.js

mode：显示的方式。console：cmd显示方式；web：通过在浏览器中访问页面显示http://127.0.0.1:8000
url：被爬的网址，如果为分页，则用%%替换页码，如：http://www.xiaoboy.com/?page=%%
isPagination：是否为分页，true或false
from：如果isPagination为true，则此参数生效。表示从第几页开始爬
to：同上。表示到第几页结束
type：爬取的类型：图片(image)和文本(text)
saveDir：保存的目录。如：./download
selector：数组，存储各个页面的选择器及URL所在的属性，按页面层级写。如：[{$:'$("#test").find("a")',attr:'href'},{$:'$("#img li")',attr:'data-img'}]
- $：字符串，写法类似于jQuery。如：'$("#test").find("a")'
- attr：url所在的属性（即$中查找的dom元素）
headers：头部信息。可选
imageFn：自定义函数，对图片地址进行处理，如抓取到的图片地址是：http://xxx.com/imgsmall/123.jpg此地址是一张小图，而大图的地址是：http://xxx.com/imgbig/123.jpg，此时可以使用到imageFn函数：function(url){ return url.replace('imgsmall','imgbig'); }