计算机视觉发展

1. 概览

1.1 定义及历史

  • 赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);
  • 计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;
  • 经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉

1.2 计算机视觉 vs人工智能

人工智能范畴
计算机视觉知识树

1.3 整体概览

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程
网络越深,精度越高
轻量化网络,ShuffleNet-V2,准确性和效率均最好
2.1.2 挑战

人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化

  • 遮挡
  • 视角
  • 光照
  • 尺度
  • 变形
  • 背景干扰


2.1.3 典型框架

深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。

2.2 物体检测

2.2.1 发展历程

2.2.2 挑战

平衡两方面因素

  • 精度
  • 速度
2.2.3 典型框架
  • Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢


  • One-stage:端到端框架,精度低但速度快


2.2.4 发展趋势

物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化

2.3 图像分割

2.3.1 定义


语义分割

实例分割

3D分割

视频分割

2.3.2 分割质量评价指标

  • Pixel Accuracy,标记正确的像素占总像素的比例


  • mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值


2.3.3 发展历程

2.3.4 典型算法

2.3.5 挑战

  • 难点A:如何表示高度抽象的语义信息



  • 难点B:场景复杂,存在遮挡,阴影等因素



  • 难点C:边缘和微小物体等细节部分易丢失



2.3.6 数据集

  • 通用场景分割
    1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。
    2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017))
  • 道路场景分割数据集
    1. Cityscapes,
    2. Mapillary Vistas,
    3. ApolloScape
    4. BDD100K等

2.3 视频分析

2.3.1 发展历程

  • 双流网络:融合空间与时序变化的信息进行分析


  • 利用人体骨架/关节点/姿态信息预测人体行为



  • STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等


  • 3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等


    image.png

2.3.2 典型算法

  • C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。



  • I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。


  • P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。


  • Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。


  • TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。



    image.png
  • SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。


2.3.3 挑战

  • 难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。


  • 难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。



  • 难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。



2.3.4 相关数据集



2.4 SLAM

2.4.1 知识树

2.4.2 经典算法

2.4.3 发展趋势

  • 多传感器融合(GPS/IMU/Camera/Lidar/Radar)


  • 深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)



  • 语义SLAM(半稠密语义建图/稠密3D语义建图)



  • 端到端SLAM(基于增强学习的自主导航/感知建图和规划)



2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。


人脸交互 表情识别/眼球追踪/头部姿态

手势交互

体控交互

2.5.2 面部表情

  • 表情识别发展
    方法从手工特征到深度神经网络
    数据从粗分类到精细表情分类


  • 识别流程


  • 应用场景


    智能监控

    智能机器人

    虚拟现实

2.5.2 手势

  • 应用场景


  • 优劣势
    优势
    识别人的自然手势
    可以脱离实体接触,实现远距离控制
    交互动作更加丰富和自然
    劣势
    成本相对高
    识别手势有限
  • 技术实现
    Depth Camera
    RGB-D Camera
    Monocular RGB

2.5.3 人体

  • 类型


    2D Human Pose

    3D Human Pose
  • 应用场景


    体感游戏

    辅助裁判

    自动驾驶
  • 优劣势
    优势
    技术成熟
    落地应用越来越多
    交互动作更加丰富和自然
    劣势
    使用场景要覆盖全身,遮挡条件下效果不好
    应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题

2.6.1 发展历程

2.6.2 定义


文本检测
SWT:基于笔画特征
MSER:基于稳定区域
FCN+RNN:基于分割的方式
SSD-based:基于深度检测的方式
文本识别
字符识别:HOG、SIFT特征
单词识别:CNN分类
文本行识别:CNN + LSTM + CTC

2.6.3 挑战与难点


多种语言文本混合
文本方向多样性
文字变形(透视、仿射变换)、残缺、模糊等现象
自然场景图像的背景极其多样
光照变化、遮挡问题

2.6.4 发展趋势

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来
对抗生成学习 GANs
强化学习
Automl


2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

  • 目标是模拟图像的高维分布,以生成“真实”的图像,


  • 与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果


  • 图像生成方面,从早期的Deep dream,到去年底的高清人脸生成



  • 数据增广与增强深度网络对噪声样本鲁棒


2.7.3 强化学习

研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏


  • 面向特定任务的机械控制,路径规划


  • 自主搜索更优的深度网络结构


  • 策略游戏AI,媲美或超越人类顶级高手


2.7.4 Automl

  • 自动化实现高性能的模型构建和超参数调整
    目标是降低模型设计的难度,但需要大量的算力来支撑
    前沿课题,发展迅速,需要紧密观察
    在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络


  • 在检测任务上的测评表现(NAS为automl模型)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342