/Dataset

:sparkles:SKU级别的商品图像数据集汇总

GNU General Public License v3.0GPL-3.0

✨ SKU级别的商品图像数据集汇总

1. AiProducts-Challenge(阿里2020)

下载地址:2020-AiProducts-Challenge-dataset

OpenI平台地址: https://git.openi.org.cn/ColugoMum/Exprements-public/datasets

数据介绍: Large-scale Product Recognition赛题与数据-天池大赛-阿里云天池

该数据集包含近 300 万张图片, 涵盖 5 万个 SKU 级商品类别. 商品图像的类别和总量均为业界之最. 此数据集中涵盖了大量的生活用品、食物等, 数据集中没有人工标注, 数据较脏, 数据分布较不均衡, 且有很多相似的商品图片.

数据样例:

1st-plan:1st__Winner Solution for AliProducts Challenge Large-scale Product Recognition.pdf

6st-plan:GitHub -AiProducts-Challenge

@InProceedings{Le_2020_ECCV,  
	author = {Lele Cheng and Xiangzeng Zhou and Liming Zhao and Dangwei Li and Hong Shang and Yun Zheng and Pan Pan and Yinghui Xu.},  
	title = {Weakly Supervised Learning with Side Information for Noisy Labeled Images},  
	booktitle = {The European Conference on Computer Vision (ECCV)},  
	month = {August},  
	year = {2020}  
}

2. RPC: 大规模零售产品结账数据集

下载地址:Retail Product Checkout Dataset

OpenI平台地址: Retail Product Checkout Dataset

数据介绍:RPC-PDF

数据样例:

@article{Wei2019RPCAL,
  title={RPC: A Large-Scale Retail Product Checkout Dataset},
  author={Xiu-Shen Wei and Quan Cui and Lei Yang and Peng Wang and Lingqiao Liu},
  journal={ArXiv},
  year={2019},
  volume={abs/1901.07249}
}

3. Products-10K(京东)

下载地址:Large scale product recognition challenge

OpenI平台地址:https://openi.pcl.ac.cn/thomas-yanxin/Product10k

数据介绍:Products-10K

京东在线客户经常购买的10, 000种产品, 涵盖时尚、3C、食品等全品类, 医疗保健, 家居用品等. Products-10k 数据集中的所有图片均来自京东商城. 数据集**包含 1 万个经常购买的 SKU. 所有 SKU 组织成一个层次结构. 总共有近 19 万张图片. 在实际应用场景中, 图像量的分布是不均衡的. 所有图像都由生产专家团队手工检查/标记.

数据样例:

1st-plan: 冠军方案分享:ICPR 2020大规模商品图像识别挑战赛冠军解读

@article{Bai2020Products10KAL,
  title={Products-10K: A Large-scale Product Recognition Dataset},
  author={Yalong Bai and Yuxiang Chen and Wei Yu and Linfang Wang and Wei Zhang},
  journal={ArXiv},
  year={2020},
  volume={abs/2008.10545}
}

数据介绍:

该数据集共有 2, 019 个产品类别, 它们被组织成一个具有四个层次的层次结构. 此类别树可以在product_tree.json中找到, 并使用product_tree.pdf进行可视化. 每个叶节点对应一个类别 id, 类别共享同一个祖先属于同一个超类. 树结构不参与评估, 但可能在模型训练期间使用.

train.json包含id, class, url每个训练图像, 您可以在其中使用和类标签url下载相应的图像. 训练数据包含来自 2, 019 个类别的 1, 011, 532 张图像(每个类别的范围从 158 到 1050 张图像). val.json包含id, class, url验证集中的图像. 验证数据有 10, 095 张图像(每个类别大约 5 张). test.json包含id, url测试集中的图像. 测试数据有 90, 834 张图像(每个类别大约 45 张).

OpenI平台地址: https://openi.pcl.ac.cn/thomas-yanxin/iMaterialist

数据下载: 比赛数据可在Google Drive或百度盘下载(密码:qecd)

1st-plan:iMaterialist Challenge on Product Recognition

5. SmartUVM_Datasets(2019哈工大(深圳))

数据介绍:SmartUVM_Datasets(全球新零售环境提供标准数据集).pdf

OpenI平台地址: https://openi.pcl.ac.cn/thomas-yanxin/SmartUVM_Datasets/datasets

数据样例:

数据下载:SmartUVM_Datasets_down(8G).tar

@ARTICLE{8908822,
  author={Zhang, Haijun and Li, Donghai and Ji, Yuzhu and Zhou, Haibin and Wu, Weiwei and Liu, Kai},
  journal={IEEE Transactions on Industrial Informatics}, 
  title={Toward New Retail: A Benchmark Dataset for Smart Unmanned Vending Machines}, 
  year={2020},
  volume={16},
  number={12},
  pages={7722-7731},
  doi={10.1109/TII.2019.2954956}}

6. Grocery Store Dataset

数据介绍(paper.pdf):

该存储库包含杂货商品的自然图像数据集. 所有自然图像都是用智能手机相机在不同的杂货店拍摄的. 最终得到了来自 81 种不同类别的水果、蔬菜和纸箱物品(例如果汁、牛奶、酸奶)的 5125 张自然图像.81个类分为42个粗粒度类, 例如细粒度类"Royal Gala"和"Granny Smith"属于同一个粗粒度类"Apple".

数据样例:

数据下载:https://github.com/marcusklasson/GroceryStoreDataset

@article{Klasson2019AHG,
  title={A Hierarchical Grocery Store Image Dataset With Visual and Semantic Labels},
  author={Marcus Klasson and Cheng Zhang and Hedvig Kjellstr{\"o}m},
  journal={2019 IEEE Winter Conference on Applications of Computer Vision (WACV)},
  year={2019},
  pages={491-500}
}

7. MVTEC D2S(ECCV2018)

数据介绍(paper.pdf):

Densely Segmented Supermarket (D2S) 数据集是工业领域中实例感知语义分割的基准. 它包含 21, 000 张高分辨率图像, 带有所有对象实例的像素标签. 这些物品包括来自 60 个类别的杂货和日常用品. 该基准的设计使其类似于自动结账、库存或仓库系统的真实设置. 训练图像仅包含同质背景上的单个类别的对象, 而验证集和测试集则更加复杂和多样化. 为了进一步衡量实例分割方法的鲁棒性, 使用不同的光照、旋转和背景获取场景.

数据样例:

数据下载: MVTEC D2S

@article{Follmann2018MVTecDD,
  title={MVTec D2S: Densely Segmented Supermarket Dataset},
  author={Patrick Follmann and Tobias B{\"o}ttger and Philipp H{\"a}rtinger and Rebecca K{\"o}nig and Markus Ulrich},
  journal={ArXiv},
  year={2018},
  volume={abs/1804.08292}
}

8. SHORT(WACV2014)

数据介绍(paper.pdf):

该数据集由一组高质量的训练图像和一组近13.5万张智能手机拍摄的30种食品的测试图像组成. 包括零食, 化妆品, 药品, 饮料, 罐头食品, 乳制品. 训练集是高质量的, 从产品手册、广告、3D产品视图中收集. 测试集的质量并不稳定, 因为图像是从手持手机上采集的, 视角不同, 清晰度不同, 背景杂波不同, 遮挡不同, 光照不同, 镜面反射不同.

数据样例:

数据下载: 待定

9. Locount(AAA2021)

数据介绍(paper.pdf):

在 28 个不同的商店和公寓中收集了一个大规模的对象定位和计数数据集, 该数据集由 50, 394 张图像组成, JPEG 图像分辨率为 1920x1080 像素. 注释了 140 个类别(包括Jacket、Shoes、Oven等)中的超过 190 万个对象实例.

为了方便数据的使用, 我们将数据集划分为两个子集, 即训练集和测试集, 包括 34, 022 幅训练图像和 16, 372 幅测试图像. 该数据集包括9大子类, 即婴儿用品(例如, 婴儿尿布和婴儿拖鞋)、饮料(例如, 果汁和姜茶)、食品(例如, 干鱼和蛋糕)、日化用品(例如, 肥皂和洗发水) )、服装(如夹克和成人帽)、电器(如微波炉和插座))、存储设备(例如, 垃圾和凳子)、厨房用具(例如, 叉子和食品盒)以及文具和体育用品(例如, 滑板和笔记本).

数据样例:

数据下载:IntelligentTEAM / AAAI2021 Locount Dataset

10. RP2K(品览)

数据介绍(paper.pdf):

RP2K数据集收录了50万+张零售商品货架图片, 商品种类超过2, 000种, 是目前零售类数据集中产品种类数量最多的数据集. 不同于一般聚焦新产品的数据集, RP2K收录了超过50万张零售商品货架图片, 商品种类超过2000种.

该数据集是目前零售类数据集中产品种类数量TOP1, 同时所有图片均来自于真实场景下的人工采集, 针对每种商品, 品览提供了十分详细的标注. RP2K致力于帮助物品识别领域进行学术研究, 同时为AI物品识别从业者打造真实行业级试炼场.

数据样例:

数据下载: https://www.pinlandata.com/rp2k_dataset

OpenI平台地址:https://openi.pcl.ac.cn/thomas-yanxin/rp2k/datasets

@article{Peng2020RP2KAL,
  title={RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification},
  author={Jingtian Peng and Chang Xiao and Xun Wei and Yifan Li},
  journal={ArXiv},
  year={2020},
  volume={abs/2006.12634}
}

❤️ 特别感谢

  1. 特别感谢Funny AI提供的相关材料, 本文已征得作者授权;
  2. 特别感谢PaddleClas提供部分材料;
  3. 特别感谢各数据集来源单位. 本Repo承诺仅将数据集用于学术.