/vocToCocoByPaddle

这个项目主要用来利用百度飞浆库将VOC格式的数据转换成COCO数据集的格式

vocToCocoByPaddle

这个项目主要用来利用百度飞浆库将VOC格式的数据转换成COCO数据集的格式。

这是我第一次用这个readme文件

首先第一步数据集的准备,数据集的格式如下

  • 1、Annotations 文件夹,主要用于存放图片文件标注的.xml文件

  • 2、ImageSets/Main 里面主要包含了各种训练、验证、测试图片名称的txt文件

  • 3、JPEGImages存放了所有训练照片

1、首先将所有的照片放在JPEGImages文件里面,将所有标注的XML文件放在Annotations的位置里面

2、现在目的是要生成ImageSets/Main里面的各种训练、验证、测试的txt文档,此时运行xml_to_voc.py

  • 1、将xmlfilepath填写成Annotations的绝对路径

  • 2、txtsavepath填写成ImageSets/Main的绝对路径

  • 最终将生成ImageSets/Main里面的各种txt文件,至此已经完成了所有VOC格式数据的准备

3、准备百度飞浆所需要的VOC数据集

  • 这一部分主要参考数据集准备
  • 注意这一步一定要增加一个label_list.txt,里面主要包含了每个类别的名称

4、利用paddle进行格式的转换

  python tools/x2coco.py --dataset_type voc \
        --voc_anno_dir path/to/VOCdevkit/VOC2007/Annotations/ \
        --voc_anno_list path/to/VOCdevkit/VOC2007/ImageSets/Main/trainval.txt \
        --voc_label_list dataset/voc/label_list.txt \
        --voc_out_name voc_train.json     

5、接下来一步用来将生成的voc_train.json标签数据与原始的图片组成COCO数据集

  • annotations文件夹用于存放voc_train.json 文件
  • train文件用来存放所有的图像照片