工具来源:https://github.com/whlook/VOCMaker.git
1. VOC数据集包含内容
VOC数据集,包含以下几个文件夹:
- Annotations (存放每个对象xml格式的标签)
- ImagesSets(包括action layout main segmentation四个部分的内容,是数据集中每一种类型图片的信息。main下存放的是图像物体识别的数据,总共分为20类。)
- JPEGImages(所有jpg图片,包括训练图片和测试图片。)
- SegmentationClass(标注出每一个像素的类别)
- SegmentationObject(标注出每一个像素属于哪一个物体)
2. 如何制作自己的VOC数据集
2.1 准备照片素材
比如,我有4类素材:可口可乐、味全、统一方便面、青岛纯生
总共97张图片。
2.2 标注每张图片
依赖:
- Windows10系统
- python 2.7.14
- opencv3.0
- vs2015
- python numpy库
- VOCMaker源码
2.2.1 安装python 2.7.14
- 官网下载安装python 2.7.14 ,比如我安装到C:\Python27目录
- 添加python 环境变量,打开系统环境变量,Path变量添加:C:\Python27;C:\Python27\Scripts;
2.2.2 安装numpy库
打开cmd,执行:
pip install numpy
2.2.3 安装opencv3.0
安装、编译参考
安装、编译完成后,要把opencv-3.0\opencv\mybuild\install\x86\vc14\bin目录下所有的动态库,拷贝到VOCMaker-master\VOCMaker\Debug目录下;
把opencv-3.0\opencv\build\python\2.7\x64\cv2.pyd拷贝到VOCMaker程序运行目录。
2.2.4 VOCMaker
下载地址:https://github.com/whlook/VOCMaker
打开工程,注意配置工程的openCV依赖库和头文件路径。
2.2.5 重命名图片
将原始图片都放到:VOCMaker-master\VOCMaker\VOCMaker\imgs目录下,如图所示:
在master\VOCMaker\VOCMaker\目录下,执行:
python rename.py
会在当前目录下生成JPEGImages文件夹,并把原始图片统一重命名为以下:
运行程序,框住要识别的物体,填写标签:
按空格键,切换到下一张照片。
当操作完最后一张图片时,按o键,生成xml标签信息。
所有标签信息录入完毕后,执行:
python txt.py
3. 其他工具介绍
https://github.com/puzzledqs/BBox-Label-Tool
4. 程序下载
程序我打包了有需要可以Q我。qq号:479066524