计算机视觉(Computer Vision)是研究如何使机器“看”的科学,即用摄像机和计算机代替人眼对目标进行识别、跟踪、测量等任务。其与机器视觉的区别在于:计算机视觉侧重对质的分析,如分类识别,这是猫还是狗;或进行身份确认,如车牌识别、人脸识别;或进行行为分析,如人群聚集等;而机器视觉侧重对量的分析,如通过视觉去测量零件的直径。计算机视觉的基本任务包括:图像分类、目标定位、目标检测、图像分割等。
图像分类(Image Classification):图像分类任务的目标是输出给定的图像是什么类别的问题,如回答这是一张猫的图像的问题;
目标定位(Object Localization):目标定位任务的目标是找到图像中某一类别的物体在图像中的位置,输出bounding box;即不仅要识别出是什么类别的物体(类标签),还要给出物体的位置,位置用bounding box标记。 目标定位通常是针对单个物体的。
目标检测(Object Detection):目标检测任务包含分类和目标定位,目标是用多个bounding box分别把多个物体的位置标记出来,并分别给出物体对应的类别。目标检测通常是多个物体的定位任务。即不仅要识别图像中的阿猫阿狗,还要给出阿猫阿狗的位置。
图像分割(Image Segmentation):图像分割任务的目标是将图像细分为多个具有相似性质且不相交的区域,是对图像中的每一个像素加标签的过程,即像素级的分割。图像分割任务主要有语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)两种。语义分割的目标是将输入图像分为不同语义可解释的类别(语义的可解释性即分类类别在真是世界中是有意义的),每一个像素点都要判断其类别,是像素级别的分割。注意语义分割值判断类别不区分个体,例如语义分割将图像中属于汽车的所有像素标记为蓝色,对于图像中有两个蓝色的像素,无法区分他们是属于同一个还是不同的汽车。实例分割的目的是确定图像中存在的兴趣目标位置和类别,机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记。实例分割是目标检测和语义分割的结合,但又不同于目标检测和语义分割。相对物体检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割可以标注出图上同一物体的不同个体,即哪些像素属于第一辆汽车,哪些像素属于第二辆汽车。最后,还有一个全景分割,它是语义分割和实例分割的结合。即每个像素都被分为一类,如果一种类别里有多个实例,会用不同的颜色进行区分,就知道哪个像素属于哪个类中的哪个实例。
注:上述任务中,最基本的是分类任务,其他任务都可在分类任务的基础上,通过一些技术手段解决,例如在图片中加入很多窗口,提取每一个窗口的特征,然后预测分类,并将分类一样并相邻的窗口合并,就成了目标定位和目标检测。
本文内容参考资料:
https://www.jianshu.com/p/45acc16c6a94
https://blog.csdn.net/qq_39295044/article/details/79796663
https://zhuanlan.zhihu.com/p/50996404
https://blog.csdn.net/niaolianjiulin/article/details/52948274
https://zhuanlan.zhihu.com/p/39272659