Jingdong_Search_Engine

need to open in Docker

crawler.py 爬虫程序，爬取京东商品信息，每个商品存为一个html文件于html文件夹下
东川路杂货铺.py 网站的运行程序，在docker中运行该文件即可打开网页
templates 该文件夹存放了包括商品名称搜索，商品标签搜索，商品图片搜索，商品店铺搜索，商品logo搜索的10个html前端文件
image 暂存一张图片(image/1.jpg)，为用过上传的用于检索的图片
temp_file 暂存一个关键词，为用户输入的文本内容
file1.npy & file2.npy 各暂存一个列表，为用于过滤的商品品牌列表和商品标签列表
static 静态文件夹，存放网页背景图
img_pre.py 下载爬虫爬取的商品的图片和logo图片并用Resnet50通过CNN算法计算出特征向量，同时计算哈希存入二进制文件中
- dataset/img_hash_in_Docker.npy & logo_hash_in_Docker.npy 存储图片与logo的哈希值的二进制文件
IndexFiles.py 对html中的txt文件逐个处理，将商品的信息分类建立索引
- index 索引文件夹
SearchFiles.py 搜索函数，实现各种搜索，被东川路杂货铺.py 调用
search_by_CNN 实现图片搜索和logo搜索的函数，被SearchFiles.py调用
img_search_test 存放两张测试用图片，分别用于图片搜索和Logo搜索