DeepFashion2 数据集

DeepFashion2 是一个全面的时尚数据集。它包含来自商业购物商店和消费者的 13 种流行服装类别共 49.1 万张不同的图像。总共拥有 80.1 万个服装项目，其中每张图像中的每个项目都被标记有比例、遮挡、放大、视角、类别、风格、边界框、密集地标和像素蒙版。还有 87.3 万个商业-消费者服装对。该数据集被分为一个训练集（39.1 万张图像）、一个验证集（3.4 万张图像）和一个测试集（6.7 万张图像）。

图 1：DeepFashion2 的示例。

*_{从（1）到（4），每一行代表具有不同变化的服装图像。在每一行中，我们将图像分为两组，左边的三列代表来自商业商店的服装，而右边的三列则来自消费者。在每一组中，这三个图像表示对应变化的三个难度级别。此外，在每一行中，这两个组图像中的项目来自相同的服装身份，但来自两个不同的领域，即商业和消费者。相同身份的项目可能具有不同的风格，例如颜色和印刷。每个项目都带有地标和蒙版的注释。}

公告

2020-2-6 我们正在 CVPR 2020 研讨会中举办DeepFashion2 挑战，包括服装地标估计和服装检索。详细信息可在第三届计算机视觉用于时尚、艺术和设计研讨会中获取。
2019-9-6 已发布的DeepFashion2 数据集的基线。
2019-8-1 2019 年 ICCV 研讨会中的DeepFashion2 挑战结束。
2019-7-12 由于 CodaLab 数据库的损坏，我们重新发布了DeepFashion2 挑战中的比赛。如果您是DeepFashion2 挑战的参与者，请重新创建一个帐户并在地标估计或服装检索中再次上传您的结果。
2019-7-1 DeepFashion2 的测试图像已在DeepFashion2 数据集中发布。（解压缩测试文件的密码与解压缩训练和验证文件的密码相同。）
2019-5-28 ICCV 2019 研讨会中的DeepFashion2 挑战的链接已发布。详细信息可在第二届计算机视觉用于时尚、艺术和设计研讨会中获取。
2019-5-27 ICCV 2019 研讨会网站发布：第二届计算机视觉用于时尚、艺术和设计研讨会。挑战的链接将很快发布。

下载数据

DeepFashion2 数据集可在DeepFashion2 数据集中获取。您需要填写表格以获取解压缩文件的密码。请参阅下面的数据描述以获取有关数据集的详细信息。

数据组织

每个独立图像集中的图像都有一个独特的六位数字，例如 000001.jpg。相应的注释文件以 json 格式在注释集中提供，例如 000001.json。每个注释文件的组织方式如下：

来源：一个字符串，其中“商店”表示图像来自商业商店，而“用户”表示图像由用户拍摄。
对 ID：一个数字。来自同一商店的图像及其相应的消费者拍摄的图像具有相同的对 ID。
- 项目 1
  - 类别名称：一个表示物品类别的字符串。
  - 类别 ID：一个与类别名称相对应的数字。在类别 ID 中，1 代表短袖上衣，2 代表长袖上衣，3 代表短袖外套，4 代表长袖外套，5 代表背心，6 代表吊带，7 代表短裤，8 代表裤子，9 代表裙子，10 代表短袖连衣裙，11 代表长袖连衣裙，12 代表背心裙，13 代表吊带裙。
  - 风格：一个数字，用于区分具有相同对 ID 的图像中的服装项目。具有相同风格号码（大于 0）且来自具有相同对 ID 的图像的服装项目具有不同的风格，例如颜色、印刷和标志。这样，如果它们具有相同的风格号码且大于 0，并且它们来自具有相同对 ID 的图像，那么来自商店图像的服装项目和来自用户图像的服装项目就是正商业-消费者对。（如果您对风格感到困惑，请参考问题#10。）
  - 边界框：[x1,y1,x2,y2]，其中 x1 和 y_1 表示边界框的左上角点坐标，x_2 和 y_2 表示边界框的右下角点坐标。（宽度=x2-x1；高度=y2-y1）
  - 地标：[x1,y1,v1,...xn,yn,vn]，其中 v 表示可见性：v=2 表示可见；v=1 表示遮挡；v=0 表示未标记。我们对不同类别的地标有不同的定义。地标注释的顺序在图 2 中列出。
  - 分割：[[x1,y1,...xn,yn],[ ]]，其中 [x1,y1,xn,yn] 表示一个多边形，单个服装项目可能包含多个多边形。
  - 比例：一个数字，其中 1 代表小比例，2 代表中等比例，3 代表大比例。
  - 遮挡：一个数字，其中 1 代表轻微遮挡（包括无遮挡），2 代表中度遮挡，3 代表重度遮挡。
  - 缩放：一个数字，其中 1 代表无缩放，2 代表中等缩放，3 代表大缩放。
  - 视图角度：一个数字，其中 1 代表无穿着，2 代表正面视图，3 代表侧面或背面视图。
- 项目 2 ...

* 项目 n

请注意，'pair_id' 和 'ource' 是图像级别的标签。图像中的所有服装项目共享相同的'pair_id'和'source'。

13 类的地标和骨架的定义如下。图中的数字代表注释文件中每个类别的地标注释的顺序。总共定义了 294 个地标，涵盖了 13 个类别。

图 2：地标和骨架的定义。

我们不提供成对的数据。在训练数据集中，图像是按照连续的'pair_id'组织的，包括来自消费者的图像和来自商店的图像。（例如：000001.jpg（对 ID：1；来自消费者），000002.jpg（对 ID：1；来自商店），000003.jpg（对 ID：2；来自消费者），000004.jpg（对 ID：2；来自商店），000005.jpg（对 ID：2；来自消费者），000006.jpg（对 ID：2；来自商店），000007.jpg（对 ID：2；来自商店），000008.jpg（对 ID：2；来自商店）...）如果来自商店图像的服装项目和来自消费者图像的服装项目具有相同且大于 0 的风格号码，并且它们来自具有相同对 ID 的图像，则它们是正商业-消费者对，否则它们是负对。这样，您可以在实例级别构建训练正对和负对。

如图所示，前三个图像是来自消费者的，最后两个图像是来自商店的。这五张图像具有相同的“对 ID”。橙色边界框中的服装项目具有相同的“风格”：1。绿色边界框中的服装项目具有相同的“风格”：2。图中未绘制边界框的其他服装项目的“风格”为 0，它们无法构成正商业-消费者对。一个正商业-消费者对是第一个图像中标注的短袖上衣和最后一个图像中标注的短袖上衣。我们的数据集使得能够以灵活的方式在实例级别构建对。

数据描述

训练图像：train/image 训练标注：train/annos

验证图像：validation/image 验证标注：validation/annos

测试图像：test/image

每个单独图像集中的图像都有一个独特的六位数，例如 000001.jpg。相应的注释文件以 json 格式在注释集中提供，例如 000001.json。我们提供了代码从我们的数据集生成 coco 类型的标注，在deepfashion2_to_coco.py中。请注意，在评估期间，图像_id 是图像名称中的数字。（例如，000001.jpg 的图像_id 是 1）。json 文件在 json_for_validation 和 json_for_test 中是根据上述规则使用deepfashion2_to_coco.py生成的。通过这种方式，可以为评估中的服装检测任务和服装分割任务生成基准 json 文件，这些任务未在 DeepFashion2 挑战中列出。

在验证集中，我们在 keypoints_val_information.json、retrieval_val_consumer_information.json 和 retrieval_val_shop_information.json 中提供了图像级别的信息。（在验证集中，前 10844 张图像来自消费者，最后 20681 张图像来自商店。）对于未在 DeepFashion2 挑战中列出的服装检测任务和服装分割任务，keypoints_val_information.json 也可以使用。

我们为验证集的评估提供了 keypoints_val_vis.json、keypoints_val_vis_and_occ.json、val_query.json 和 val_gallery.json。您可以使用评估代码和上述 json 文件在本地获得验证分数。您也可以将结果提交到我们的 DeepFashion2 挑战的评估服务器。

在测试集中，我们在 keypoints_test_information.json、retrieval_test_consumer_information.json 和 retrieval_test_shop_information.json 中提供了图像级别的信息。（在测试集中，前 20681 张图像来自消费者，最后 41948 张图像来自商店。）您需要将结果提交到我们的 DeepFashion2 挑战的评估服务器。

数据集统计

表 1 显示了 DeepFashion2 中图像和标注的统计信息。（有关发布的图像和标注的统计信息，请参阅DeepFashion2 挑战）。

表 1：DeepFashion2 的统计信息。

	训练	验证	测试	总体
图像	390,884	33,669	67,342	491,895
边界框	636,624	54,910	109,198	800,732
地标	636,624	54,910	109,198	800,732
掩码	636,624	54,910	109,198	800,732
对	685,584	查询：12,550 图库：37183	查询：24,402 图库：75,347	873,234

图 3 显示了 DeepFashion2 中不同变化和 13 个类别中项目数量的统计信息。

图 3：DeepFashion2 的统计信息。

基准

服装检测

该任务通过预测边界框和每个检测到的服装项目的类别标签来检测图像中的服装。评估指标是边界框的平均精度 ${AP}_{box}$ 、 ${AP}_{box}^{IoU=0.50}$ 、 ${AP}_{box}^{IoU=0.75}$ 。

表 2：使用发布的 DeepFashion2 数据集训练的服装检测在验证集上的评估。

AP	AP50	AP75
0.638	0.789	0.745

表 3：不同验证子集上的服装检测，包括比例、遮挡、放大和视角。

		_比例			_遮挡			_放大			_视角		_总体
	_小	_中等	_大	_轻微	_中等	_严重	_无	_中等	_大	_无穿着	_正面	_{侧面或背面}
_AP	_0.604	_0.700	_0.660	_0.712	_0.654	_0.372	_0.695	_0.629	_0.466	_0.624	_0.681	_0.641	_0.667
_AP50	_0.780	_0.851	_0.768	_0.844	_0.810	_0.531	_0.848	_0.755	_0.563	_0.713	_0.832	_0.796	_0.814
_AP75	_0.717	_0.809	_0.744	_0.812	_0.768	_0.433	_0.806	_0.718	_0.525	_0.688	_0.791	_0.744	_0.773

地标和姿势估计

该任务旨在预测每个检测到的服装项目在每张图像中的地标。同样，我们采用了 COCO 用于人体姿势估计的评估指标，通过计算关键点的平均精度 ${AP}_{pt}$ 、 ${AP}_{pt}^{OKS=0.50}$ 、 ${AP}_{pt}^{OKS=0.75}$ ，其中 OKS 表示物体地标相似性。

表 4：使用发布的 DeepFashion2 数据集对验证集进行地标估计的训练结果。

	AP	AP50	AP75
vis	0.605	0.790	0.684
vis && hide	0.529	0.775	0.596

表 5：不同验证子集上的地标估计，包括尺度、遮挡、放大和视角。每一行分别显示仅可见地标和可见和遮挡地标的评估结果

		_Scale			_Occlusion			_{Zoom_in}			_Viewpoint		_Overall
	_small	_moderate	_large	_slight	_medium	_heavy	_no	_medium	_large	_{no wear}	_frontal	_{side or back}
_AP	_0.587 0.497	_0.687 0.607	_0.599 0.555	_0.669 0.643	_0.631 0.530	_0.398 0.248	_0.688 0.616	_0.559 0.489	_0.375 0.319	_0.527 0.510	_0.677 0.596	_0.536 0.456	_0.641 0.563
_AP50	_0.780 0.764	_0.854 0.839	_0.782 0.774	_0.851 0.847	_0.813 0.799	_0.534 0.479	_0.855 0.848	_0.757 0.744	_0.571 0.549	_0.724 0.716	_0.846 0.832	_0.748 0.727	_0.820 0.805
_AP75	_0.671 0.551	_0.779 0.703	_0.678 0.625	_0.760 0.739	_0.718 0.600	_0.440 0.236	_0.786 0.714	_0.633 0.537	_0.390 0.307	_0.571 0.550	_0.771 0.684	_0.610 0.506	_0.728 0.641

图 4 展示了地标和姿势估计的结果。

图 4：地标和姿势估计的结果。

服装分割

此任务为物品中的每个像素分配一个类别标签（包括背景标签）。评估指标是在掩码上计算的平均精度，包括 ${AP}_{mask}$ 、 ${AP}_{mask}^{IoU=0.50}$ 、 ${AP}_{mask}^{IoU=0.75}$ 。

表 6：使用已发布的 DeepFashion2 数据集训练的服装分割在验证集上的评估结果。

AP	AP50	AP75
0.640	0.797	0.754

表 7：不同验证子集上的服装分割，包括尺度、遮挡、放大和视角。

		_尺度			_遮挡			_放大			_视角		_总体
	_小	_中等	_大	_轻微	_中等	_严重	_无	_中等	_大	_无磨损	_正面	_{侧面或背面}
_AP	_0.634	_0.703	_0.666	_0.720	_0.656	_0.381	_0.701	_0.637	_0.478	_0.664	_0.689	_0.635	_0.674
_AP50	_0.811	_0.865	_0.798	_0.863	_0.824	_0.543	_0.861	_0.791	_0.591	_0.757	_0.849	_0.811	_0.834
_AP75	_0.752	_0.826	_0.773	_0.836	_0.780	_0.444	_0.823	_0.751	_0.559	_0.737	_0.810	_0.755	_0.793

图 5 展示了服装分割的结果。

图 5：服装分割的结果。

消费者到商店服装检索

对于从消费者拍摄的照片中检测到的项目，此任务旨在在图库中搜索与该检测到的项目相对应的商业图像。在这个任务中，采用 top-k 检索准确率作为评估指标。我们强调检索性能，同时仍然考虑检测器的影响。如果一件服装物品未能被检测到，则将该查询项目计为遗漏。

表 8：使用检测框对发布的 DeepFashion2 数据集进行训练的消费者到商店服装检索在验证集上的评估。

	top-1	top-5	top-10	top-15	top-20
类别	0.079	0.198	0.273	0.329	0.366
关键点	0.182	0.326	0.416	0.469	0.510
分割	0.135	0.271	0.350	0.407	0.447
类别+关键点	0.192	0.345	0.435	0.488	0.524
类别+分割	0.152	0.295	0.379	0.435	0.477

表 9：在一些验证的消费者拍摄图像的不同子集上的消费者到商店服装检索。这些图像中的每个查询项目在验证商业图像中都有超过 5 个相同的服装项目。每行分别显示对地面实况框和检测到的框的评估结果。评估指标是 top-20 准确率。

		_Scale			_Occlusion			_{Zoom_in}			_Viewpoint			_Overall
	_small	_moderate	_large	_slight	_medium	_heavy	_no	_medium	_large	_{no wear}	_frontal	_{side or back}	_top-1	_top-10	_top-20
_class	_0.520 0.485	_0.630 0.537	_0.540 0.502	_0.572 0.527	_0.563 0.508	_0.558 0.383	_0.618 0.553	_0.547 0.496	_0.444 0.405	_0.546 0.499	_0.584 0.523	_0.533 0.487	_0.102 0.091	_0.361 0.312	_0.470 0.415
_pose	_0.721 0.637	_0.778 0.702	_0.735 0.691	_0.756 0.710	_0.737 0.670	_0.728 0.580	_0.775 0.710	_0.751 0.701	_0.621 0.560	_0.731 0.690	_0.763 0.700	_0.711 0.645	_0.264 0.243	_0.562 0.497	_0.654 0.588
_mask	_0.624 0.552	_0.714 0.657	_0.646 0.608	_0.675 0.639	_0.651 0.593	_0.632 0.555	_0.711 0.654	_0.655 0.613	_0.526 0.495	_0.644 0.615	_0.682 0.630	_0.637 0.565	_0.193 0.186	_0.474 0.422	_0.571 0.520
_pose+class	_0.752 0.691	_0.786 0.730	_0.733 0.705	_0.754 0.725	_0.750 0.706	_0.728 0.605	_0.789 0.746	_0.750 0.709	_0.620 0.582	_0.726 0.699	_0.771 0.723	_0.719 0.684	_0.268 0.244	_0.574 0.522	_0.665 0.617
_mask+class	_0.656 0.610	_0.728 0.666	_0.687 0.649	_0.714 0.676	_0.676 0.623	_0.654 0.549	_0.725 0.674	_0.702 0.655	_0.565 0.536	_0.684 0.648	_0.712 0.661	_0.658 0.604	_0.212 0.208	_0.496 0.451	_0.595 0.542

图 6 展示了带有前五个检索到的服装项目的查询。第一列和第七列是由检测模块预测的带有边界框的客户图像，第二列到第六列和第八列到第十二列显示了商店的检索结果。

图 6：服装检索的结果。

引用

如果您在工作中使用了 DeepFashion2 数据集，请引用它如下：

@article{DeepFashion2,
  author = {Yuying Ge and Ruimao Zhang and Lingyun Wu and Xiaogang Wang and Xiaoou Tang and Ping Luo},
  title={一种多功能的基准，用于检测、姿势估计、分割和重新识别服装图像},
  journal={CVPR},
  year={2019}
}

maxliaops/DeepFashion2