2017.04.22
1、新建仓库,主要目的是精简原先的项目代码;
2、之后上传的文件不包含.gitignore文件中设置的忽略项:
cookie.txt--浏览器上网记录文件,
pycache--py文件运行缓存文件夹,
.idea--python项目运行环境配置文件夹,
Items.csv--结果数据表格文件,
Item_images、Temp_images--图片生成文件夹;
2017/04.23
1、添加了新的信息获取代码,文件名称在原先的基础上添加了Cmp,如pushDataCmp.py;
2、考虑到最开始提供的表格数据文件AllItems.csv中有些信息可能已经过期,即商品下架,操作流程为:第一次运行时需要将AllItems.csv文件放在根目录下,即和py文件放在一起;后续运行的时候会将上次结果进行迭代,保证每次都会过滤掉过期的信息;
3、测试发现,最开始的AllItems.csv文件读取会报错,解决方法是新建一个文件,将整个文件内容进行复制即可;
2017/04.26
1、从网络下载图片到本地文件夹时对保存文件名做了判断,如果存在则不进行下载,优化整个图片获取过程;
2017/05.08
1、将待写入列表数据进行gbk编码和解码,忽略gbk编码不能解析的内容;
2、去除打开带写入excel表时的utf-8编码,发现加上会造成结果为乱码;
2017/05.10
1、修改了翻译方法,依然采用Google翻译,虽然还是有点慢但是不会卡住,发现是无限详情这一栏内容太多导致;
2017.06.01
1、InsertCategoryInfo.py
获取分类信息,写入category表;
2、InsertItemInfo.py
对应某个分类,获取top100条目,写入top100表;
3、QueryCategoryInfo.py
查询分类信息;
4、QueryItemInfo.py
查询top100信息;
目前写入的内容没有翻译,且写入前均会将上一次内容清空。
(注:以后对项目进行的迭代,尽量在此文件中进行概述,格式如下:
日期
1、改动点1;
2、改动点2;
如果上传时间是在已存在日期内,那么接下去编号即可。)