京东商品推荐系统

数据爬虫部分

本项目用来抓取京东商城的食品区域的商品信息、评价信息和用户数据，数据库采用Mysql。

爬虫的核心模块采用WebMagic，主要实现了JDPageProcessor类，继承自PageProcessor。采用XPath和CSS Selector两种模式抽取网页信息。如抽取商品页面用户链接信息：

String aHref = html.xpath("div[@class='item']/div[@class='user']/div[@class='u-icon']/a/@href").toString();

采用的是Xpath抽取方式，过程：提取html中class为item的div中的class为user的div中的class为u-icon中的超链接。`