/pachong

node爬虫获取baidu新闻页

Primary LanguageJavaScript

技术栈: node + express + cheerio + cheerio

爬虫爬取百度新闻页 news.baidu.com

express (使用express来搭建一个简单的Http服务器。当然,你也可以使用node中自带的http模块)

superagent (superagent是node里一个非常方便的、轻量的、渐进式的第三方客户端请求代理模块,用他来请求目标页面)

cheerio (cheerio相当于node版的jQuery,用过jQuery的同学会非常容易上手。它主要是用来获取抓取到的页面元素和其中的数据信息)

由于不是很大,代码量也不是很多,直接把node-moudles传上去了。嘎嘎!