voc和coco格式区别

VOC

VOC数据格式的目标检测数据,是指每个图像文件对应一个同名的xml文件,xml文件中标记了物体框的坐标和类别等信息。

  data
    |-- Annotations
    		|-- all xml files #存放xml文件,与JPEGImages图片一一对应
    |-- JPEGImages
    		|-- all your samples #所有你的数据集图片
    |-- ImageSets
    		|-- 。。。。#存放数据集分成的txt文件,每一行包含图片的名称。

Annotation示例

其中xml主要介绍了对应图片的基本信息,如来自那个文件夹、文件名、来源、图像尺寸以及图像中包含哪些目标以及目标的信息等等,内容如下:

<annotation>
    <folder>VOC2007</folder>
    <filename>000005.jpg</filename>#文件名
    <source>#文件来源
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
        <image>flickr</image>
        <flickrid>325991873</flickrid>
    </source>
    <owner>
        <flickrid>archintent louisville</flickrid>
        <name>?</name>
    </owner>
    <size>#文件尺寸,包括长、宽、通道数
        <width>500</width>
        <height>375</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>#是否用于分割
    <object>#检测目标
        <name>chair</name>#目标类别
        <pose>Rear</pose>#摄像头角度
        <truncated>0</truncated>#是否被截断,0表示完整
        <difficult>0</difficult>#目标是否难以识别,0表示容易识别
        <bndbox>#bounding-box
            <xmin>263</xmin>
            <ymin>211</ymin>
            <xmax>324</xmax>
            <ymax>339</ymax>
        </bndbox>
    </object>
    <object>#检测到的多个物体, 可以看到上图中,图片000005中有多个椅子
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>165</xmin>
            <ymin>264</ymin>
            <xmax>253</xmax>
            <ymax>372</ymax>
        </bndbox>
    </object>
    <object>#检测到的多个物体
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>5</xmin>
            <ymin>244</ymin>
            <xmax>67</xmax>
            <ymax>374</ymax>
        </bndbox>
    </object>
    <object>
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>241</xmin>
            <ymin>194</ymin>
            <xmax>295</xmax>
            <ymax>299</ymax>
        </bndbox>
    </object>
    <object>#检测到的多个物体
        <name>chair</name>
        <pose>Unspecified</pose>
        <truncated>1</truncated>
        <difficult>1</difficult>
        <bndbox>
            <xmin>277</xmin>
            <ymin>186</ymin>
            <xmax>312</xmax>
            <ymax>220</ymax>
        </bndbox>
    </object>
</annotation>

COCO

COCO的数据格式是指将所有训练图像的标注都存放到一个json文件中,数据以字典嵌套的形式存放。

Annotation示例

{
    "info": info, # dict
     "licenses": [license], # list ,内部是dict
     "images": [image], # list ,内部是dict
     "annotations": [annotation], # list ,内部是dict
     "categories": # list ,内部是dict
}

于深度学习训练,实际有用的字段,只有以下三个字段: images,annotations,categories

"images": [
            {
             "license":4 #可以忽略
            "file_name":000.jpg #可以忽略
            "coco_url":"http://****" #可以忽略
             "id": 1, 
             "file_name": "000.tif", 
             "width": 48.0, 
             "height": 112.0
             "date_captured":"2022-02-02 17:02:02" #可以忽略
             "flickl_url":"http://****" #可以忽略
            }
            ...
            ...
            ]
annotation{
    "id": int,    
    "image_id": int,
    "category_id": int,
    "segmentation": RLE or [polygon],
    "area": float,
    "bbox": [x,y,width,height],
    "iscrowd": 0 or 1,
}

{
    "id": int,
    "name": str,
    "supercategory": str,
}

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×