登录注册写文章

计算机视觉发展

计算机视觉发展

1. 概览

1.1 定义及历史

赋予机器自然视觉能力的学科，给机器装上眼睛（成像设备）和大脑（算法）；
计算机视觉是一门综合性的学科，涵盖信号处理，神经认知学，应用数学和统计学等；

经历了4个主要阶段，研究内容大体分为物体视觉和空间视觉

1.2 计算机视觉 vs人工智能

人工智能范畴

计算机视觉知识树

1.3 整体概览

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程

网络越深，精度越高

轻量化网络，ShuffleNet-V2，准确性和效率均最好

2.1.2 挑战

人识别一个物体特别简单，但是计算机处理起来却不是件容易的事，需要应对多方面的因素变化

遮挡
视角
光照
尺度
变形
背景干扰

2.1.3 典型框架

深度学习成为主流之后，网络设计的思路：网络加深、网络加宽，为了提高效率，网络也向轻量化发展。

2.2 物体检测

2.2.1 发展历程

2.2.2 挑战

平衡两方面因素

精度
速度

2.2.3 典型框架

Two-stage：1.提取候选框；2.对候选框提取特征并分类；3.精度高但速度慢
One-stage：端到端框架，精度低但速度快

2.2.4 发展趋势

物体检测的发展趋势：Anchor-Free、关系推理、弱监督检测和轻量化

2.3 图像分割

2.3.1 定义

语义分割

实例分割

3D分割

视频分割

2.3.2 分割质量评价指标

Pixel Accuracy，标记正确的像素占总像素的比例
mIoU(Mean Intersection over Union)，平均交并比，各类真实值和预测值的交集和并集之比的均值

2.3.3 发展历程

2.3.4 典型算法

2.3.5 挑战

难点A：如何表示高度抽象的语义信息
难点B：场景复杂，存在遮挡，阴影等因素
难点C：边缘和微小物体等细节部分易丢失

2.3.6 数据集

通用场景分割
1.PASCAL VOC分割数据集，20类， 2913张图片(VOC 2012)。
2.MS COCO分割数据集，80类， 122218张图片（COCO instances 2017)）
道路场景分割数据集
1. Cityscapes,
2. Mapillary Vistas,
3. ApolloScape
4. BDD100K等

2.3 视频分析

2.3.1 发展历程

双流网络：融合空间与时序变化的信息进行分析
利用人体骨架/关节点/姿态信息预测人体行为
STN利用稀疏采样处理长视频分析，其他改进还有TRN和ECO等
3D卷积网络直接抽取信息，2D CNN的推广，后续改进有I3D，P3D，Non-local 3D等

image.png

2.3.2 典型算法

C3D: Tran等人提出，将3x3卷积扩展到3x3x3卷积，2x2 Pooling扩展到2x2x2 Pooling。
I3D: Carreira等人提出，把Two-Stream结构中的2D卷积扩展为3D卷积。
P3D: Z. Qiu等人提出，用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。
Two Stream: Simonyan等人提出，采用两个卷积分支，一个分支提取RGB图像中的空间信息，另一个分支处理光流运动场，用于提取帧之间的运动信息。
TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系，从而对视频进行稀疏采样，在避免冗余信息的同时可以处理长距离依赖。

image.png
SlowFastNet: Feichtenhofer等人提出，SlowFast网络中Slow分支用于捕获语义信息，而Fast分支用于捕获运动信息，这和Two-Stream网络的思路类似。

2.3.3 挑战

难点1：空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合，提取出动作意图，目前还没有明确理论。
难点2：动作边界不明确。现实中一件事情往往没有明确的开始点和结束点，从而导致目前行为识别和检测的mAP偏低。
难点3：时间跨度大。同一个动作，可能持续几秒钟，也可能持续几十秒，从而使得提取Proposal的变得异常艰难。

2.3.4 相关数据集

2.4 SLAM

2.4.1 知识树

2.4.2 经典算法

2.4.3 发展趋势

多传感器融合（GPS/IMU/Camera/Lidar/Radar）
深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)
语义SLAM(半稠密语义建图/稠密3D语义建图)
端到端SLAM(基于增强学习的自主导航/感知建图和规划)

2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段，如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中，视觉产品扮演着计算机输入设备的作用。

人脸交互表情识别/眼球追踪/头部姿态

手势交互

体控交互

2.5.2 面部表情

表情识别发展
方法从手工特征到深度神经网络
数据从粗分类到精细表情分类
识别流程
应用场景

智能监控

智能机器人

虚拟现实

2.5.2 手势

应用场景

优劣势
优势
识别人的自然手势
可以脱离实体接触，实现远距离控制
交互动作更加丰富和自然
劣势
成本相对高
识别手势有限
技术实现
Depth Camera
RGB-D Camera
Monocular RGB

2.5.3 人体

类型

2D Human Pose

3D Human Pose
应用场景

体感游戏

辅助裁判

自动驾驶
优劣势
优势
技术成熟
落地应用越来越多
交互动作更加丰富和自然
劣势
使用场景要覆盖全身，遮挡条件下效果不好
应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别，起源于上世纪50年代，如今技术成熟。STR自然场景文本识别，尽管有深度学习加成，仍是热点与难点问题

2.6.1 发展历程

2.6.2 定义

文本检测
SWT：基于笔画特征
MSER：基于稳定区域
FCN+RNN：基于分割的方式
SSD-based：基于深度检测的方式
文本识别
字符识别：HOG、SIFT特征
单词识别：CNN分类
文本行识别：CNN + LSTM + CTC

2.6.3 挑战与难点

多种语言文本混合
文本方向多样性
文字变形(透视、仿射变换)、残缺、模糊等现象
自然场景图像的背景极其多样
光照变化、遮挡问题

2.6.4 发展趋势

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石，同时，新兴方向已经正在影响并有可能引领视觉应用的未来
对抗生成学习 GANs
强化学习
Automl

2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

目标是模拟图像的高维分布，以生成“真实”的图像，
与图像处理 (超分、inpainting等)和合成等问题结合，提升视觉效果
图像生成方面，从早期的Deep dream，到去年底的高清人脸生成
数据增广与增强深度网络对噪声样本鲁棒

2.7.3 强化学习

研究学习器在与环境的交互过程中，如何学习到一种行为策略，以最大化得到的累积奖赏

面向特定任务的机械控制，路径规划
自主搜索更优的深度网络结构
策略游戏AI，媲美或超越人类顶级高手

2.7.4 Automl

自动化实现高性能的模型构建和超参数调整
目标是降低模型设计的难度，但需要大量的算力来支撑
前沿课题，发展迅速，需要紧密观察
在部分任务性能表现上，已经跟上甚至超越当前最优人工设计的深度网络
在检测任务上的测评表现(NAS为automl模型)

最后编辑于：2020.09.13 14:13:13

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

1赞2赞

赞赏

手机看全文