写给设计师的AI扫盲帖

随着人工智能研究的深入,以及移动设备计算能力的提升,人工智能有了越来越多应用场景——AlphaGo战胜围棋大师、手机厂商纷纷主打AI智能拍照功能、多家厂商推出智能语音助手、无人驾驶领域形成神仙打架格局等等。但是AI到底是什么?AI能做什么?作为互联网从业者、一名设计师,我们的工作会产生什么变化呢?带着这些疑问,我对AI的相关知识进行了一番调研,本篇先聚焦在AI的基础概念和技术原理,希望设计师同行能通过本文对AI有一个初步的认知。

人工智能的含义

所谓“人工智能”,就是人造的机器智能,让机器能表现出人类的智慧。让我们回忆一下人类的智慧成长过程是怎样的:一个小孩从一出生就开始用眼睛观察世界,慢慢学会说话跟人交流,还学会走路,而长大的过程中也一直在学习更多知识与能力,最终能处理越来越多的问题。人工智能现阶段就相当于一个小孩的智慧水平,具备了初级的视觉、对话、学习的能力,能针对特定的场景进行决策与行动,从而能帮助人类完成一些工作及解决问题。下文我将按照机器不同的智能表现,对AI各分支领域产品和技术进行简单介绍。

AI的“眼睛”模拟人的视觉

所谓AI模拟人的视觉,是指让机器代替人眼对目标进行识别、跟踪和测量,例如从图像和视频中识别出不同对象、识别人脸辨别身份、识别文字内容等。开篇提到的手机“AI拍照”就是利用对图像的识别完成的,先识别出不同的拍照场景和物体,比如“夜景”、“美食”、“人像”等,然后根据拍摄场景来调整适合的摄影参数,就可以帮助用户一键拍出“美照”。

​​

图像识别不同对象(左)和人脸识别(右)


视觉是人类与生俱来的能力,而其他人会不断教育小孩其观察到的物体是什么,人便逐渐对世界产生认知,当再看见相似物品也能识别判断。AI的视觉也是类似的过程,相关的技术称为计算机视觉(Computer Vision, 下文称CV),可分为三个步骤:获取图像、图像处理和图像识别。

获取图像

严格意义上,获取图像的技术不算是人工智能的分支领域,在AI“火”之前也已经有这些技术了。与人类只有一双眼睛不同,机器可以通过多种感应器来获取图像,除了摄像头外,还包括雷达、红外线、超声波接收器等方式,所以AI的视觉通道会更丰富。

图像处理(Image Processing)

传统的计算机技术中,计算机对图片能了解到的只有大小、尺寸、每个像素点的色值、灰度等信息,图像处理主要是指图像压缩、增强等。而CV则是要了解图片内包含了什么内容,其图像处理阶段则主要是对图像进行分割,提取边缘、区域等特征信息,这是进行进一步识别的基础。

图像识别(Image Identification)

CV的关键是能识别出图像中的内容,如识别文字(如“I”还是“1”)、识别物体(如“狗”还是“猫”)、识别场景(如“夜景”还是“逆光”)。人类能识别所看到的内容,是因为人类可以将物体的特征与经验知识进行比对。例如兔子有长长的耳朵就是特征,而“经验”对机器而言则是一个图片数据库,其包含了大量标记好特征和结果的图片。机器通过检索和比对,进而完成识别任务。

人脸识别(Face Identification)

人脸识别是CV的重要分支,是更高阶的图像识别技术,其目标是对图像中的人像进行身份识别,能够在不同的脸部表情、角度、光照、年龄特征等条件变化时,仍能识别出哪些图像是属于同一个人,主要应用于身份认证和监控系统中。

AI的“听”“说”系统实现与人自然交流

AI更高级的智能表现是具备和人类对话交流的能力,能听懂和说人话,这样的好处是人与机器的交互不再需要通过按键来传递指令,而是可以直接通过自然语言向机器传递想法,代表的产品有Siri、智能音箱、AI客服等。现在你拨打银行的客服热线,已经不再需要根据它的提示指令不断输入数字了,而是可以直接提问(比如“我要开卡”),这就是AI技术对交互体验的提升。

​​

亚马逊智能音箱Alexa(左)和Siri(右)


要实现机器与人类对话,需要机器具备三种能力:听懂、理解、和回答,这就分别对应了三种重要技术:语音识别、自然语言处理、和语音合成。

​​

人类与机器对话的流程


听懂——语音识别(Automatic Speech Recognition,ASR)

人类说话发出的是声波,但机器不能直接处理音波信息,因此要将声波信息转化为机器能处理的信息。ASR实现的就是将语音信息转化为文字,例如你在微信收到一段语音信息,但当下不方便听语音,那么你通过“翻译成文字”功能就能看到这条语音信息的文字内容。ASR会先将音波转换成数字信息,然后再通过声音模型和语言模型将数字信息逐步转换成字、词、再到句子。

理解——自然语言处理(Natural-Language-Processing,NLP)

假设我这周末要去杭州,我想了解航班信息,我可以搜索“广州到杭州航班”,搜索引擎会根据关键词给我匹配结果。但如果我是对机器说一句“我这周末要去杭州,帮我查一下航班”呢,这是我比较自然的表达,机器就需要从这句话提取出相同的关键词,了解到我的意图是要查询机票,并明白“周末”是时间条件。NLP实现的就是让机器对人类自然语言进行语义分析和理解,还要结合上下文去了解人类的情感和意图,另外也要将处理的结果组织成人类语言作为响应。

回答——语音合成(Speech Synthesis),也叫文本朗读(Text-To-Speech,TTS)

当机器听懂和理解人类说的话之后,更自然的响应方式当然是用自然语言“回答”人类,这就需要TTS技术来将文字转化为语音。除了语音助手进行回答外,高德地图的明星语音包也是TTS应用的优秀案例。先让明星录制一套基础导航语句,以及录制可提取其声音特征的简单语句,就可建立起一个语音库。在用户使用语音包时,导航系统会根据文案先从语音库中匹配已录制的音频。而没有覆盖到的语句,则可基于统计模型来预测文字的发音,然后模拟明星声音特征来合成音频。最后把两种来源的音频拼装成完整的语音,再播放出来即可。

AI的“大脑”模拟人的学习能力

AI最关键的是让机器能像人类一样思考,相关的技术称为机器学习(Machine Learning),它是实现AI各项技术的重要途径。前文提到的图像识别、自然语言处理等技术,也需要依赖机器学习来提升其精确度和智能水平。机器学习的主要任务,是从数据中分析出规律,从而进行分类和预测。比如AI推荐算法可以找出你所阅读的新闻之间的关联性,继而进行个性化推荐。还有AlphaGo和王者荣耀的“最强人机”,则是通过学习游戏“套路”达到能与人对弈的水平。

​​

AlphaGO人机对弈(左)和Google News Initiative新闻个性化推荐(右)


机器学习与传统算法的区别

机器学习区别于传统算法的特点,是其可以对自身算法进行完善。比如要识别图片中的数字是几,传统算法其实也可以通过穷举比对来识别。但当要识别不同字体的手写数字,传统算法就难以穷举了。而机器学习的思路则是不断去做“识别手写数字”的练习,慢慢从不及格练到90分。

训练机器的步骤

训练机器的过程类似老师教一群学生上课,比如要教学生识别水果,可分为几步:

训练数据集准备:老师准备图片,并且告诉学生这个是苹果,那个是香蕉;

选择学习模型:有的学生学会用颜色来判断,有的学生通过形状来判断,有的学生会结合两个特征来判断;

训练:老师布置作业给学生,要去识别更多图片中的水果;

评估:老师给不同学生打分,发现结合两个特征来判断的学生做对的题目更多;

修正:其他学生参考高分答案,也学会了更优秀的“学习模型”,通过不断地修正,整个班级的最高分和平均分都提升了!

而根据训练机器的数据集和训练目标的不同,机器学习可以分为三种方法:监督学习、非监督学习和强化学习。

监督学习(Supervised Learning)

所谓“监督”,是指人类作为“老师”去监督机器学习,即人工标记了训练数据的预期结果,例如给机器输入一大堆标记为“猫”的图片,和一大堆标记为“狗”的图片,让机器再去尝试判断其他图片内的是“猫”还是“狗”。人类对算法判定结果的对错打分,帮助算法提升。

非监督学习(Unsupervised Learning)

非监督学习使用的是不带标记的训练数据,这更符合现实需求,因为很多要处理的数据连人类也不知道应该怎么标记,但却希望机器能将它们归类,或者找出之间的关联。比如给机器输入一批动物的图片,机器能学习到不同动物的特征,将“猫”的图片分一堆,“狗”的图片分到另一堆。

强化学习(Reinforcement Learning)

最后一种方法叫做“强化学习”,人类没有给机器一堆数据进行分析处理,而是给机器设定一个目标任务,让机器自己通过经验教训来成长,在一路的摸打滚爬中逐步走向胜利。例如AlphaGo和人类对战围棋,就是输了无数次后逐步掌握套路,最终战胜人类的“励志故事”。强化学习区别于前两种方法,关注的不再是某个判断是否准确,而是行动过程能否带来最大的收益。

AI的智慧大脑指导“行动”

机器分别具备视觉、对话、学习能力,也只是打开了机器与世界接触的更多维度。而具备一颗智慧大脑能调动各项能力,从而指导自己“行动”的AI,才是可以辅助人类进行决策、协助或替代人类完成某些工作的“真智能”,我认为无人驾驶和机器人是目前较为成熟的“真智能”应用。

​​

自动驾驶汽车(左)和人形机器人Atlas(右)


无人驾驶系统是一个充分结合AI各项技术的系统,其使用视频摄像头、雷达传感器,以及激光测距器来了解周围的交通状况,这属于“视觉”的部分。而通过学习,还能按交通标记和导航路线来判断是该停止还是转弯,还能进行会车和避让行人。

而机器人学是研究让机器自己控制自己的行动的相关技术,主要应用于替代人类完成一些高强度的体力劳动工作,例如物流机器人;或在不适合人类长期停留的环境下完成工作,例如救援机器人。与无人驾驶的原理类似,不同岗位的机器人会掌握不同的知识,并作出合适的决策与行动。

写在结尾

在刚接触AI的基础知识时,我首先感到的困难是AI涉及到非常多的技术概念,它们之间的关系是什么?AI的整个知识体系到底包含到哪些内容?当我回到“人工智能”的概念,思考“智能”指的是什么?为什么需要“人造”的“智能”?发现如果把AI类比为人类,就会更容易理解AI各分支领域的初衷和原理。希望读完本文的你也能够向小白解释AI是什么,在未来工作中如果遇到AI的命题也已具备基础的知识背景。如果你对本文有疑问,也欢迎指正与交流。

作者:Daisy Wu

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343