/AmazonJP

Primary LanguagePython

AmazonJP

2017.04.22

1、新建仓库,主要目的是精简原先的项目代码;

2、之后上传的文件不包含.gitignore文件中设置的忽略项:

cookie.txt--浏览器上网记录文件,

pycache--py文件运行缓存文件夹,

.idea--python项目运行环境配置文件夹,

Items.csv--结果数据表格文件,

Item_images、Temp_images--图片生成文件夹;

2017/04.23

1、添加了新的信息获取代码,文件名称在原先的基础上添加了Cmp,如pushDataCmp.py;

2、考虑到最开始提供的表格数据文件AllItems.csv中有些信息可能已经过期,即商品下架,操作流程为:第一次运行时需要将AllItems.csv文件放在根目录下,即和py文件放在一起;后续运行的时候会将上次结果进行迭代,保证每次都会过滤掉过期的信息;

3、测试发现,最开始的AllItems.csv文件读取会报错,解决方法是新建一个文件,将整个文件内容进行复制即可;

2017/04.26

1、从网络下载图片到本地文件夹时对保存文件名做了判断,如果存在则不进行下载,优化整个图片获取过程;

2017/05.08

1、将待写入列表数据进行gbk编码和解码,忽略gbk编码不能解析的内容;

2、去除打开带写入excel表时的utf-8编码,发现加上会造成结果为乱码;

2017/05.10

1、修改了翻译方法,依然采用Google翻译,虽然还是有点慢但是不会卡住,发现是无限详情这一栏内容太多导致;

2017.06.01

1、InsertCategoryInfo.py

获取分类信息,写入category表;

2、InsertItemInfo.py

对应某个分类,获取top100条目,写入top100表;

3、QueryCategoryInfo.py

查询分类信息;

4、QueryItemInfo.py

查询top100信息;

目前写入的内容没有翻译,且写入前均会将上一次内容清空。

(注:以后对项目进行的迭代,尽量在此文件中进行概述,格式如下:

日期

1、改动点1;

2、改动点2;

如果上传时间是在已存在日期内,那么接下去编号即可。)