微软提供 http://mscoco.org/
目前有:
(1)2014年训练集
(2)2014年验证集
(3)2014年测试集
(4)2015年测试集
这里标注采用的是JSON格式。主要有三种类型标注:物体实例、物体关键点和图像捕捉。这三种公共的数据结构如下:
data | 说明 |
---|---|
info | 提供year、version、description、contributor、url、date_created等信息 |
images | 是个数组,提供图像的id、宽度、长度、文件名称、网络存储地址、拍摄日期等有关信息 |
license | 也是数组,提供id、name、url等信息 |
其中2014年验证、测试集提供如下标注:
(1)物体实例
annotation data | 说明 |
---|---|
id | -- |
image_id | 对应的图像 |
category_id | 对应的类别 |
segmentation | 图像分割(多边形点或RLE?) |
area | 面积 |
bbox | x,y,width,height |
iscrowd | 标明是不是一群物体(一群人) |
categories data | 说明 |
---|---|
id | 种类id |
name | 种类名称 |
supercategory | 父类 |
(2)人类关键点
给关键点个数和位置
(3)图像捕捉
给id 和 caption
此外还提供了标注:
(1)2014年测试图像信息
测试数据并没有圈框,同时给出了90个类别
(2)2015年测试图像信息
自定义数据集
我认为我们的数据集应该包括一下内容:
(1)图像编号id
(2)图像的大类别(大货车、小汽车、摩托车)
(3)图像的大类别的细分类别(eg:小汽车中本田、奥迪、大众)
(4)图像大小
(5)图像生成时间
(6)图像中物体画框并对应大类别小类别(x,y,width,height,若有多个以数组形式给出)
(7)图像中物体完整性(车是否完整)及聚集性(车、车群(一辆挡住另一辆))