本项目用来抓取京东商城的食品区域的商品信息、评价信息和用户数据,数据库采用Mysql。
爬虫的核心模块采用WebMagic,主要实现了JDPageProcessor
类,继承自PageProcessor
。
采用XPath和CSS Selector两种模式抽取网页信息。如抽取商品页面用户链接信息:
String aHref = html.xpath("div[@class='item']/div[@class='user']/div[@class='u-icon']/a/@href").toString();
采用的是Xpath抽取方式,过程:提取html
中class
为item
的div
中的class
为user
的div
中的class
为u-icon
中的超链接。`