/51fetch

Primary LanguageCoffeeScript

数据库结构

采集涉及以下相关数据表:

ecm_store ecm_goods ecm_goods_image ecm_goods_spec ecm_attribute ecm_goods_attr ecm_gcategory ecm_category_goods

采集基本流程,从ecm_store表中获取店铺的淘宝地址(shop_http),首先采集店铺的html分类信息,放进ecm_store表的cate_content字段,再把分类信息结构化后,写入ecm_gcategory表。ecm_gcategory表中如果store_id为0,则说明是网站全局分类,如不为0,则是具体店铺的自定义分类。

采集完店铺分类后,采集具体的宝贝信息,基本信息写入ecm_goods表,宝贝主图写入ecm_goods_image表,sku信息写入ecm_goods_spec表,宝贝属性写入ecm_goods_attr表。其中需注意的是ecm_goods表中cate_id_1、cate_id_2、cate_id_3、cate_id_4对于ecm_goods_gcategory中的四级分类。宝贝属性中必须写入一条数据attr_id为1,内容为商家编码。