/DeepFashion2

DeepFashion2 Dataset https://arxiv.org/pdf/1901.07973.pdf

Primary LanguageJupyter Notebook

DeepFashion2 数据集

image

DeepFashion2 是一个全面的时尚数据集。它包含来自商业购物商店和消费者的 13 种流行服装类别共 49.1 万张不同的图像。总共拥有 80.1 万个服装项目,其中每张图像中的每个项目都被标记有比例、遮挡、放大、视角、类别、风格、边界框、密集地标和像素蒙版。还有 87.3 万个商业-消费者服装对。 该数据集被分为一个训练集(39.1 万张图像)、一个验证集(3.4 万张图像)和一个测试集(6.7 万张图像)。

图 1:DeepFashion2 的示例。

image

*从(1)到(4),每一行代表具有不同变化的服装图像。在每一行中,我们将图像分为两组,左边的三列代表来自商业商店的服装,而右边的三列则来自消费者。在每一组中,这三个图像表示对应变化的三个难度级别。此外,在每一行中,这两个组图像中的项目来自相同的服装身份,但来自两个不同的领域,即商业和消费者。相同身份的项目可能具有不同的风格,例如颜色和印刷。每个项目都带有地标和蒙版的注释。

公告

下载数据

DeepFashion2 数据集可在DeepFashion2 数据集中获取。您需要填写表格以获取解压缩文件的密码。请参阅下面的数据描述以获取有关数据集的详细信息。

数据组织

每个独立图像集中的图像都有一个独特的六位数字,例如 000001.jpg。相应的注释文件以 json 格式在注释集中提供,例如 000001.json。 每个注释文件的组织方式如下:

  • 来源:一个字符串,其中“商店”表示图像来自商业商店,而“用户”表示图像由用户拍摄。
  • 对 ID:一个数字。来自同一商店的图像及其相应的消费者拍摄的图像具有相同的对 ID。
    • 项目 1
      • 类别名称:一个表示物品类别的字符串。
      • 类别 ID:一个与类别名称相对应的数字。在类别 ID 中,1 代表短袖上衣,2 代表长袖上衣,3 代表短袖外套,4 代表长袖外套,5 代表背心,6 代表吊带,7 代表短裤,8 代表裤子,9 代表裙子,10 代表短袖连衣裙,11 代表长袖连衣裙,12 代表背心裙,13 代表吊带裙。
      • 风格:一个数字,用于区分具有相同对 ID 的图像中的服装项目。具有相同风格号码(大于 0)且来自具有相同对 ID 的图像的服装项目具有不同的风格,例如颜色、印刷和标志。这样,如果它们具有相同的风格号码且大于 0,并且它们来自具有相同对 ID 的图像,那么来自商店图像的服装项目和来自用户图像的服装项目就是正商业-消费者对。(如果您对风格感到困惑,请参考问题#10。)
      • 边界框:[x1,y1,x2,y2],其中 x1 和 y_1 表示边界框的左上角点坐标,x_2 和 y_2 表示边界框的右下角点坐标。(宽度=x2-x1;高度=y2-y1)
      • 地标:[x1,y1,v1,...xn,yn,vn],其中 v 表示可见性:v=2 表示可见;v=1 表示遮挡;v=0 表示未标记。我们对不同类别的地标有不同的定义。地标注释的顺序在图 2 中列出。
      • 分割:[[x1,y1,...xn,yn],[ ]],其中 [x1,y1,xn,yn] 表示一个多边形,单个服装项目可能包含多个多边形。
      • 比例:一个数字,其中 1 代表小比例,2 代表中等比例,3 代表大比例。
      • 遮挡:一个数字,其中 1 代表轻微遮挡(包括无遮挡),2 代表中度遮挡,3 代表重度遮挡。
      • 缩放:一个数字,其中 1 代表无缩放,2 代表中等缩放,3 代表大缩放。
      • 视图角度:一个数字,其中 1 代表无穿着,2 代表正面视图,3 代表侧面或背面视图。
    • 项目 2 ...

* 项目 n

请注意,'pair_id' 和 'ource' 是图像级别的标签。图像中的所有服装项目共享相同的'pair_id'和'source'。

13 类的地标和骨架的定义如下。图中的数字代表注释文件中每个类别的地标注释的顺序。总共定义了 294 个地标,涵盖了 13 个类别。

图 2:地标和骨架的定义。

图片

我们不提供成对的数据。在训练数据集中,图像是按照连续的'pair_id'组织的,包括来自消费者的图像和来自商店的图像。(例如:000001.jpg(对 ID:1;来自消费者),000002.jpg(对 ID:1;来自商店),000003.jpg(对 ID:2;来自消费者),000004.jpg(对 ID:2;来自商店),000005.jpg(对 ID:2;来自消费者),000006.jpg(对 ID:2;来自商店),000007.jpg(对 ID:2;来自商店),000008.jpg(对 ID:2;来自商店)...)如果来自商店图像的服装项目和来自消费者图像的服装项目具有相同且大于 0 的风格号码,并且它们来自具有相同对 ID 的图像,则它们是正商业-消费者对,否则它们是负对。这样,您可以在实例级别构建训练正对和负对。

如图所示,前三个图像是来自消费者的,最后两个图像是来自商店的。这五张图像具有相同的“对 ID”。橙色边界框中的服装项目具有相同的“风格”:1。绿色边界框中的服装项目具有相同的“风格”:2。图中未绘制边界框的其他服装项目的“风格”为 0,它们无法构成正商业-消费者对。一个正商业-消费者对是第一个图像中标注的短袖上衣和最后一个图像中标注的短袖上衣。我们的数据集使得能够以灵活的方式在实例级别构建对。

图片

数据描述

训练图像:train/image 训练标注:train/annos

验证图像:validation/image 验证标注:validation/annos

测试图像:test/image

每个单独图像集中的图像都有一个独特的六位数,例如 000001.jpg。相应的注释文件以 json 格式在注释集中提供,例如 000001.json。我们提供了代码从我们的数据集生成 coco 类型的标注,在deepfashion2_to_coco.py中。请注意,在评估期间,图像_id 是图像名称中的数字。(例如,000001.jpg 的图像_id 是 1)。json 文件在 json_for_validation 和 json_for_test 中是根据上述规则使用deepfashion2_to_coco.py生成的。通过这种方式,可以为评估中的服装检测任务和服装分割任务生成基准 json 文件,这些任务未在 DeepFashion2 挑战中列出。

在验证集中,我们在 keypoints_val_information.json、retrieval_val_consumer_information.json 和 retrieval_val_shop_information.json 中提供了图像级别的信息。(在验证集中,前 10844 张图像来自消费者,最后 20681 张图像来自商店。)对于未在 DeepFashion2 挑战中列出的服装检测任务和服装分割任务,keypoints_val_information.json 也可以使用。

我们为验证集的评估提供了 keypoints_val_vis.json、keypoints_val_vis_and_occ.json、val_query.json 和 val_gallery.json。您可以使用评估代码和上述 json 文件在本地获得验证分数。您也可以将结果提交到我们的 DeepFashion2 挑战的评估服务器。

在测试集中,我们在 keypoints_test_information.json、retrieval_test_consumer_information.json 和 retrieval_test_shop_information.json 中提供了图像级别的信息。(在测试集中,前 20681 张图像来自消费者,最后 41948 张图像来自商店。)您需要将结果提交到我们的 DeepFashion2 挑战的评估服务器。

数据集统计

表 1 显示了 DeepFashion2 中图像和标注的统计信息。(有关发布的图像和标注的统计信息,请参阅DeepFashion2 挑战)。

表 1:DeepFashion2 的统计信息。

训练 验证 测试 总体
图像 390,884 33,669 67,342 491,895
边界框 636,624 54,910 109,198 800,732
地标 636,624 54,910 109,198 800,732
掩码 636,624 54,910 109,198 800,732
685,584 查询:12,550
图库:37183
查询:24,402
图库:75,347
873,234

图 3 显示了 DeepFashion2 中不同变化和 13 个类别中项目数量的统计信息。

图 3:DeepFashion2 的统计信息。

图片

基准

服装检测

该任务通过预测边界框和每个检测到的服装项目的类别标签来检测图像中的服装。 评估指标是边界框的平均精度

表 2:使用发布的 DeepFashion2 数据集训练的服装检测在验证集上的评估。

AP AP50 AP75
0.638 0.789 0.745

表 3:不同验证子集上的服装检测,包括比例、遮挡、放大和视角。

比例 遮挡 放大 视角 总体
中等 轻微 中等 严重 中等 无穿着 正面 侧面或背面
AP 0.604 0.700 0.660 0.712 0.654 0.372 0.695 0.629 0.466 0.624 0.681 0.641 0.667
AP50 0.780 0.851 0.768 0.844 0.810 0.531 0.848 0.755 0.563 0.713 0.832 0.796 0.814
AP75 0.717 0.809 0.744 0.812 0.768 0.433 0.806 0.718 0.525 0.688 0.791 0.744 0.773

地标和姿势估计

该任务旨在预测每个检测到的服装项目在每张图像中的地标。同样,我们采用了 COCO 用于人体姿势估计的评估指标,通过计算关键点的平均精度,其中 OKS 表示物体地标相似性。

表 4:使用发布的 DeepFashion2 数据集对验证集进行地标估计的训练结果。

AP AP50 AP75
vis 0.605 0.790 0.684
vis && hide 0.529 0.775 0.596

表 5:不同验证子集上的地标估计,包括尺度、遮挡、放大和视角。每一行分别显示仅可见地标和可见和遮挡地标的评估结果

Scale Occlusion Zoom_in Viewpoint Overall
small moderate large slight medium heavy no medium large no wear frontal side or back
AP 0.587
0.497
0.687
0.607
0.599
0.555
0.669
0.643
0.631
0.530
0.398
0.248
0.688
0.616
0.559
0.489
0.375
0.319
0.527
0.510
0.677
0.596
0.536
0.456
0.641
0.563
AP50 0.780
0.764
0.854
0.839
0.782
0.774
0.851
0.847
0.813
0.799
0.534
0.479
0.855
0.848
0.757
0.744
0.571
0.549
0.724
0.716
0.846
0.832
0.748
0.727
0.820
0.805
AP75 0.671
0.551
0.779
0.703
0.678
0.625
0.760
0.739
0.718
0.600
0.440
0.236
0.786
0.714
0.633
0.537
0.390
0.307
0.571
0.550
0.771
0.684
0.610
0.506
0.728
0.641

图 4 展示了地标和姿势估计的结果。

图 4:地标和姿势估计的结果。

image

服装分割

此任务为物品中的每个像素分配一个类别标签(包括背景标签)。评估指标是在掩码上计算的平均精度,包括

表 6:使用已发布的 DeepFashion2 数据集训练的服装分割在验证集上的评估结果。

AP AP50 AP75
0.640 0.797 0.754

表 7:不同验证子集上的服装分割,包括尺度、遮挡、放大和视角。

尺度 遮挡 放大 视角 总体
中等 轻微 中等 严重 中等 无磨损 正面 侧面或背面
AP 0.634 0.703 0.666 0.720 0.656 0.381 0.701 0.637 0.478 0.664 0.689 0.635 0.674
AP50 0.811 0.865 0.798 0.863 0.824 0.543 0.861 0.791 0.591 0.757 0.849 0.811 0.834
AP75 0.752 0.826 0.773 0.836 0.780 0.444 0.823 0.751 0.559 0.737 0.810 0.755 0.793

图 5 展示了服装分割的结果。

图 5:服装分割的结果。

image

消费者到商店服装检索

对于从消费者拍摄的照片中检测到的项目,此任务旨在在图库中搜索与该检测到的项目相对应的商业图像。在这个任务中,采用 top-k 检索准确率作为评估指标。我们强调检索性能,同时仍然考虑检测器的影响。如果一件服装物品未能被检测到,则将该查询项目计为遗漏。

表 8:使用检测框对发布的 DeepFashion2 数据集进行训练的消费者到商店服装检索在验证集上的评估。

top-1 top-5 top-10 top-15 top-20
类别 0.079 0.198 0.273 0.329 0.366
关键点 0.182 0.326 0.416 0.469 0.510
分割 0.135 0.271 0.350 0.407 0.447
类别+关键点 0.192 0.345 0.435 0.488 0.524
类别+分割 0.152 0.295 0.379 0.435 0.477

表 9:在一些验证的消费者拍摄图像的不同子集上的消费者到商店服装检索。这些图像中的每个查询项目在验证商业图像中都有超过 5 个相同的服装项目。每行分别显示对地面实况框和检测到的框的评估结果。评估指标是 top-20 准确率。

Scale Occlusion Zoom_in Viewpoint Overall
small moderate large slight medium heavy no medium large no wear frontal side or back top-1 top-10 top-20
class 0.520
0.485
0.630
0.537
0.540
0.502
0.572
0.527
0.563
0.508
0.558
0.383
0.618
0.553
0.547
0.496
0.444
0.405
0.546
0.499
0.584
0.523
0.533
0.487
0.102
0.091
0.361
0.312
0.470
0.415
pose 0.721
0.637
0.778
0.702
0.735
0.691
0.756
0.710
0.737
0.670
0.728
0.580
0.775
0.710
0.751
0.701
0.621
0.560
0.731
0.690
0.763
0.700
0.711
0.645
0.264
0.243
0.562
0.497
0.654
0.588
mask 0.624
0.552
0.714
0.657
0.646
0.608
0.675
0.639
0.651
0.593
0.632
0.555
0.711
0.654
0.655
0.613
0.526
0.495
0.644
0.615
0.682
0.630
0.637
0.565
0.193
0.186
0.474
0.422
0.571
0.520
pose+class 0.752
0.691
0.786
0.730
0.733
0.705
0.754
0.725
0.750
0.706
0.728
0.605
0.789
0.746
0.750
0.709
0.620
0.582
0.726
0.699
0.771
0.723
0.719
0.684
0.268
0.244
0.574
0.522
0.665
0.617
mask+class 0.656
0.610
0.728
0.666
0.687
0.649
0.714
0.676
0.676
0.623
0.654
0.549
0.725
0.674
0.702
0.655
0.565
0.536
0.684
0.648
0.712
0.661
0.658
0.604
0.212
0.208
0.496
0.451
0.595
0.542

图 6 展示了带有前五个检索到的服装项目的查询。第一列和第七列是由检测模块预测的带有边界框的客户图像,第二列到第六列和第八列到第十二列显示了商店的检索结果。

图 6:服装检索的结果。

image

引用

如果您在工作中使用了 DeepFashion2 数据集,请引用它如下:

@article{DeepFashion2,
  author = {Yuying Ge and Ruimao Zhang and Lingyun Wu and Xiaogang Wang and Xiaoou Tang and Ping Luo},
  title={一种多功能的基准,用于检测、姿势估计、分割和重新识别服装图像},
  journal={CVPR},
  year={2019}
}