一文了解计算机视觉的八大应用

之前通过三篇文章简单介绍了机器学习常用的几种经典算法,当然也包括了目前很火的 CNNs 算法了:

这些算法各有各的优缺点和适用的领域,了解熟悉它们是很有必要的,但如何应用它们还需要具体问题具体分析,而机器学习常见的应用方向,包括以下几个:

  • 计算机视觉(CV)
  • 自然语言处理(NLP)
  • 语音识别
  • 推荐系统
  • 广告

等等

更详细的可以参考之前推荐过的一个网站:

https://paperswithcode.com/sota

这个网站非常详细划分了 16 个大方向,包括总共 1081 个子方向。如果想进入机器学习领域,首先还是选择一个方向领域,然后了解和熟悉该方向领域内所需要的算法,特定的解决技巧等。

当然,这篇文章主要介绍的是计算机视觉的应用,计算机视觉也算是这 16 个方向里面最热门也是发展最成熟的其中一个方向了。

计算机视觉可以分为以下几大方向:

  1. 图像分类
  2. 目标检测
  3. 图像分割
  4. 风格迁移
  5. 图像重构
  6. 超分辨率
  7. 图像生成
  8. 人脸
  9. 其他

虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。

每个方向会简单介绍该方向需要解决的问题,以及推荐一些 Github 项目、论文或者是综述文章。


1. 图像分类(Image Classification)

图像分类,也可以称为图像识别,顾名思义,就是辨别图像是什么,或者说图像中的物体属于什么类别。

图像分类根据不同分类标准可以划分为很多种子方向。

比如根据类别标签,可以划分为:

  • 二分类问题,比如判断图片中是否包含人脸;
  • 多分类问题,比如鸟类识别;
  • 多标签分类,每个类别都包含多种属性的标签,比如对于服饰分类,可以加上衣服颜色、纹理、袖长等标签,输出的不只是单一的类别,还可以包括多个属性。

根据分类对象,可以划分为:

  • 通用分类,比如简单划分为鸟类、车、猫、狗等类别;
  • 细粒度分类,目前图像分类比较热门的领域,比如鸟类、花卉、猫狗等类别,它们的一些更精细的类别之间非常相似,而同个类别则可能由于遮挡、角度、光照等原因就不易分辨。

根据类别数量,还可以分为:

  • Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括 one-shotzero-shot
  • large-scale learning:大规模样本学习,也是现在主流的分类方法,这也是由于深度学习对数据集的要求。

推荐的 Github 项目如下:

论文:

文章:

常用的图像分类数据集:

  • Mnist:手写数字数据集,包含 60000 张训练集和 10000 张测试集。
  • Cifar:分为 Cifar10 和 Cifar100。前者包含 60000 张图片,总共10个类别,每类 6000 张图片。后者是 100 个类别,每个类别 600 张图片。类别包括猫狗鸟等动物、飞机汽车船等交通工具。
  • Imagenet:应该是目前最大的开源图像数据集,包含 1500 万张图片,2.2 万个类别。

2. 目标检测(Object Detection)

目标检测通常包含两方面的工作,首先是找到目标,然后就是识别目标。

目标检测可以分为单物体检测和多物体检测,即图像中目标的数量,例子如下所示:

image
image

以上两个例子是来自 VOC 2012 数据集的图片,实际上还有更多更复杂的场景,如 MS COCO 数据集的图片例子:

image

目标检测领域,其实有很多方法,其发展史如下所示:

image

从上图可以知道有几个方法系列:

  • R-CNN 系列,从 R-CNN 到 Fast R-CNN、Faster R-CNN,Mask R-CNN;
  • YOLO 系列,从 v1 到 2018 年的 v3 版本

Github 项目:

论文:

文章:

常用的数据集:

3. 图像分割(Object Segmentation)

图像分割是基于图像检测的,它需要检测到目标物体,然后把物体分割出来。

图像分割可以分为三种:

  • 普通分割:将不同分属于不同物体的像素区域分开,比如前景区域和后景区域的分割;
  • 语义分割:普通分割的基础上,在像素级别上的分类,属于同一类的像素都要被归为一类,比如分割出不同类别的物体;
  • 实例分割:语义分割的基础上,分割出每个实例物体,比如对图片中的多只狗都分割出来,识别出来它们是不同的个体,不仅仅是属于哪个类别。

一个图形分割的例子如下所示,下图就是一个实例分割的例子,用不同的颜色表示不同的实例。

image

Github:

论文:

文章:

4. 风格迁移(Style Transfer)

风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。

一个风格迁移的例子如下, 图 A 是原图,后面的 B-F 五幅图都是根据不同风格得到的结果。

image

一般数据集采用常用的数据集加一些著名的艺术画作品,比如梵高、毕加索等。

Github:

论文:

文章:

5. 图像重构(Image Reconstruction)

图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。

一个修复的例子如下所示,总共是四张需要修复的图片,例子来自论文"Image Inpainting for Irregular Holes Using Partial Convolutions"。

image

论文:

Github:

文章:

6. 超分辨率(Super-Resolution)

超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。一个例子如下图所示,图例来自论文"Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network"。

image

通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。

常用的数据集主要是采用现有的数据集,并生成分辨率较低的图片用于模型的训练。

Github:

论文:

文章:

7. 图像生成(Image Synthesis)

图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展,主要原因也是由于 GANs 是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。

一个图像生成例子如下:

image

Githubs:

论文:

文章:

8. 人脸

人脸方面的应用,包括人脸识别、人脸检测、人脸匹配、人脸对齐等等,这应该是计算机视觉方面最热门也是发展最成熟的应用,而且已经比较广泛的应用在各种安全、身份认证等,比如人脸支付、人脸解锁。

这里就直接推荐几个 Github 项目、论文、文章和数据集

Github:

论文:

文章:

数据集:

10. 其他

实际上还有其他很多方向,包括:

  • 图文生成(Image Captioning):给图片生成一段描述。

Show and Tell: A Neural Image Caption Generator, 2014.

  • 文本生成图片(Text to Image):基于文本来生成图片。

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks, 2017.

  • 图片上色(Image Colorization):将图片从黑白变为彩色图。

Colorful Image Colorization, 2016.

  • 人体姿态估计(human pose estimation):识别人的行为动作

Cascaded Pyramid Network for Multi-Person Pose Estimation, 2017

还有包括 3D、视频、医学图像、问答、自动驾驶、追踪等等方向,具体可以查看下面这个网站:

https://paperswithcode.com/area/computer-vision

而如果认定一个方向,想开始学习这方面的内容,首先推荐可以先查找中文方面的综述文章或者论文,当然如果英语阅读能力比较好的,也可以查看英文的综述文章,通过看综述来查看下自己需要阅读的论文,论文推荐先看最近3-5年内的论文,太过久远的论文,除非需要更加深入了解某个算法,否则都不太需要阅读。

此外,就是需要结合实际项目来加深对算法的了解,通过跑下代码,也可以更好了解某个算法具体是如何实现的。


参考


小结

本文简单介绍了几个计算机视觉方面的应用,包括应用解决的问题以及推荐了几个 Github 项目和论文、文章,和常用数据集。

欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

image

往期精彩推荐

机器学习系列
Github项目 & 资源教程推荐
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343