1. 概览
1.1 定义及历史
- 赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);
- 计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;
- 经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉
1.2 计算机视觉 vs人工智能
1.3 整体概览
2. 计算机视觉进展
2.1 图像分类
2.1.1 发展历程
2.1.2 挑战
人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化
- 遮挡
- 视角
- 光照
- 尺度
- 变形
-
背景干扰
2.1.3 典型框架
深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。
2.2 物体检测
2.2.1 发展历程
2.2.2 挑战
平衡两方面因素
- 精度
- 速度
2.2.3 典型框架
-
Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢
-
One-stage:端到端框架,精度低但速度快
2.2.4 发展趋势
物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化
2.3 图像分割
2.3.1 定义
2.3.2 分割质量评价指标
-
Pixel Accuracy,标记正确的像素占总像素的比例
-
mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值
2.3.3 发展历程
2.3.4 典型算法
2.3.5 挑战
-
难点A:如何表示高度抽象的语义信息
-
难点B:场景复杂,存在遮挡,阴影等因素
-
难点C:边缘和微小物体等细节部分易丢失
2.3.6 数据集
- 通用场景分割
1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。
2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017)) - 道路场景分割数据集
- Cityscapes,
- Mapillary Vistas,
- ApolloScape
- BDD100K等
2.3 视频分析
2.3.1 发展历程
-
双流网络:融合空间与时序变化的信息进行分析
-
利用人体骨架/关节点/姿态信息预测人体行为
-
STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等
-
3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等
2.3.2 典型算法
-
C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。
-
I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。
-
P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。
-
Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。
-
TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。
-
SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。
2.3.3 挑战
-
难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。
-
难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。
-
难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。
2.3.4 相关数据集
2.4 SLAM
2.4.1 知识树
2.4.2 经典算法
2.4.3 发展趋势
-
多传感器融合(GPS/IMU/Camera/Lidar/Radar)
-
深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)
-
语义SLAM(半稠密语义建图/稠密3D语义建图)
-
端到端SLAM(基于增强学习的自主导航/感知建图和规划)
2.5 人机交互
2.5.1 定义
视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。
2.5.2 面部表情
-
表情识别发展
方法从手工特征到深度神经网络
数据从粗分类到精细表情分类
-
识别流程
-
应用场景
2.5.2 手势
-
应用场景
- 优劣势
优势
识别人的自然手势
可以脱离实体接触,实现远距离控制
交互动作更加丰富和自然
劣势
成本相对高
识别手势有限 - 技术实现
Depth Camera
RGB-D Camera
Monocular RGB
2.5.3 人体
-
类型
-
应用场景
- 优劣势
优势
技术成熟
落地应用越来越多
交互动作更加丰富和自然
劣势
使用场景要覆盖全身,遮挡条件下效果不好
应用环境要求较高
2.6 OCR & STR
OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题
2.6.1 发展历程
2.6.2 定义
文本检测
SWT:基于笔画特征
MSER:基于稳定区域
FCN+RNN:基于分割的方式
SSD-based:基于深度检测的方式
文本识别
字符识别:HOG、SIFT特征
单词识别:CNN分类
文本行识别:CNN + LSTM + CTC
2.6.3 挑战与难点
多种语言文本混合
文本方向多样性
文字变形(透视、仿射变换)、残缺、模糊等现象
自然场景图像的背景极其多样
光照变化、遮挡问题
2.6.4 发展趋势
2.7 机器学习
2.7.1 定义
机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来
对抗生成学习 GANs
强化学习
Automl
2.7.2 生成对抗网络
深度卷积网络与博弈论的结合诞生了GANs
-
目标是模拟图像的高维分布,以生成“真实”的图像,
-
与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果
-
图像生成方面,从早期的Deep dream,到去年底的高清人脸生成
-
数据增广与增强深度网络对噪声样本鲁棒
2.7.3 强化学习
研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏
-
面向特定任务的机械控制,路径规划
-
自主搜索更优的深度网络结构
-
策略游戏AI,媲美或超越人类顶级高手
2.7.4 Automl
-
自动化实现高性能的模型构建和超参数调整
目标是降低模型设计的难度,但需要大量的算力来支撑
前沿课题,发展迅速,需要紧密观察
在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络
-
在检测任务上的测评表现(NAS为automl模型)