随着人工智能研究的深入，以及移动设备计算能力的提升，人工智能有了越来越多应用场景——AlphaGo战胜围棋大师、手机厂商纷纷主打AI智能拍照功能、多家厂商推出智能语音助手、无人驾驶领域形成神仙打架格局等等。但是AI到底是什么？AI能做什么？作为互联网从业者、一名设计师，我们的工作会产生什么变化呢？带着这些疑问，我对AI的相关知识进行了一番调研，本篇先聚焦在AI的基础概念和技术原理，希望设计师同行能通过本文对AI有一个初步的认知。

人工智能的含义

所谓“人工智能”，就是人造的机器智能，让机器能表现出人类的智慧。让我们回忆一下人类的智慧成长过程是怎样的：一个小孩从一出生就开始用眼睛观察世界，慢慢学会说话跟人交流，还学会走路，而长大的过程中也一直在学习更多知识与能力，最终能处理越来越多的问题。人工智能现阶段就相当于一个小孩的智慧水平，具备了初级的视觉、对话、学习的能力，能针对特定的场景进行决策与行动，从而能帮助人类完成一些工作及解决问题。下文我将按照机器不同的智能表现，对AI各分支领域产品和技术进行简单介绍。

AI的“眼睛”模拟人的视觉

所谓AI模拟人的视觉，是指让机器代替人眼对目标进行识别、跟踪和测量，例如从图像和视频中识别出不同对象、识别人脸辨别身份、识别文字内容等。开篇提到的手机“AI拍照”就是利用对图像的识别完成的，先识别出不同的拍照场景和物体，比如“夜景”、“美食”、“人像”等，然后根据拍摄场景来调整适合的摄影参数，就可以帮助用户一键拍出“美照”。

图像识别不同对象（左）和人脸识别（右）

视觉是人类与生俱来的能力，而其他人会不断教育小孩其观察到的物体是什么，人便逐渐对世界产生认知，当再看见相似物品也能识别判断。AI的视觉也是类似的过程，相关的技术称为计算机视觉（Computer Vision, 下文称CV），可分为三个步骤：获取图像、图像处理和图像识别。

获取图像

严格意义上，获取图像的技术不算是人工智能的分支领域，在AI“火”之前也已经有这些技术了。与人类只有一双眼睛不同，机器可以通过多种感应器来获取图像，除了摄像头外，还包括雷达、红外线、超声波接收器等方式，所以AI的视觉通道会更丰富。

图像处理（Image Processing）

传统的计算机技术中，计算机对图片能了解到的只有大小、尺寸、每个像素点的色值、灰度等信息，图像处理主要是指图像压缩、增强等。而CV则是要了解图片内包含了什么内容，其图像处理阶段则主要是对图像进行分割，提取边缘、区域等特征信息，这是进行进一步识别的基础。

图像识别（Image Identification）

CV的关键是能识别出图像中的内容，如识别文字（如“I”还是“1”）、识别物体（如“狗”还是“猫”）、识别场景（如“夜景”还是“逆光”）。人类能识别所看到的内容，是因为人类可以将物体的特征与经验知识进行比对。例如兔子有长长的耳朵就是特征，而“经验”对机器而言则是一个图片数据库，其包含了大量标记好特征和结果的图片。机器通过检索和比对，进而完成识别任务。

人脸识别（Face Identification）

人脸识别是CV的重要分支，是更高阶的图像识别技术，其目标是对图像中的人像进行身份识别，能够在不同的脸部表情、角度、光照、年龄特征等条件变化时，仍能识别出哪些图像是属于同一个人，主要应用于身份认证和监控系统中。

AI的“听”“说”系统实现与人自然交流

AI更高级的智能表现是具备和人类对话交流的能力，能听懂和说人话，这样的好处是人与机器的交互不再需要通过按键来传递指令，而是可以直接通过自然语言向机器传递想法，代表的产品有Siri、智能音箱、AI客服等。现在你拨打银行的客服热线，已经不再需要根据它的提示指令不断输入数字了，而是可以直接提问（比如“我要开卡”），这就是AI技术对交互体验的提升。

亚马逊智能音箱Alexa（左）和Siri（右）

要实现机器与人类对话，需要机器具备三种能力：听懂、理解、和回答，这就分别对应了三种重要技术：语音识别、自然语言处理、和语音合成。

人类与机器对话的流程

听懂——语音识别（Automatic Speech Recognition，ASR）

人类说话发出的是声波，但机器不能直接处理音波信息，因此要将声波信息转化为机器能处理的信息。ASR实现的就是将语音信息转化为文字，例如你在微信收到一段语音信息，但当下不方便听语音，那么你通过“翻译成文字”功能就能看到这条语音信息的文字内容。ASR会先将音波转换成数字信息，然后再通过声音模型和语言模型将数字信息逐步转换成字、词、再到句子。

理解——自然语言处理（Natural-Language-Processing，NLP）

假设我这周末要去杭州，我想了解航班信息，我可以搜索“广州到杭州航班”，搜索引擎会根据关键词给我匹配结果。但如果我是对机器说一句“我这周末要去杭州，帮我查一下航班”呢，这是我比较自然的表达，机器就需要从这句话提取出相同的关键词，了解到我的意图是要查询机票，并明白“周末”是时间条件。NLP实现的就是让机器对人类自然语言进行语义分析和理解，还要结合上下文去了解人类的情感和意图，另外也要将处理的结果组织成人类语言作为响应。

回答——语音合成(Speech Synthesis)，也叫文本朗读(Text-To-Speech,TTS)

当机器听懂和理解人类说的话之后，更自然的响应方式当然是用自然语言“回答”人类，这就需要TTS技术来将文字转化为语音。除了语音助手进行回答外，高德地图的明星语音包也是TTS应用的优秀案例。先让明星录制一套基础导航语句，以及录制可提取其声音特征的简单语句，就可建立起一个语音库。在用户使用语音包时，导航系统会根据文案先从语音库中匹配已录制的音频。而没有覆盖到的语句，则可基于统计模型来预测文字的发音，然后模拟明星声音特征来合成音频。最后把两种来源的音频拼装成完整的语音，再播放出来即可。

AI的“大脑”模拟人的学习能力

AI最关键的是让机器能像人类一样思考，相关的技术称为机器学习（Machine Learning），它是实现AI各项技术的重要途径。前文提到的图像识别、自然语言处理等技术，也需要依赖机器学习来提升其精确度和智能水平。机器学习的主要任务，是从数据中分析出规律，从而进行分类和预测。比如AI推荐算法可以找出你所阅读的新闻之间的关联性，继而进行个性化推荐。还有AlphaGo和王者荣耀的“最强人机”，则是通过学习游戏“套路”达到能与人对弈的水平。

AlphaGO人机对弈（左）和Google News Initiative新闻个性化推荐（右）

机器学习与传统算法的区别

机器学习区别于传统算法的特点，是其可以对自身算法进行完善。比如要识别图片中的数字是几，传统算法其实也可以通过穷举比对来识别。但当要识别不同字体的手写数字，传统算法就难以穷举了。而机器学习的思路则是不断去做“识别手写数字”的练习，慢慢从不及格练到90分。

训练机器的步骤

训练机器的过程类似老师教一群学生上课，比如要教学生识别水果，可分为几步：

训练数据集准备：老师准备图片，并且告诉学生这个是苹果，那个是香蕉；

选择学习模型：有的学生学会用颜色来判断，有的学生通过形状来判断，有的学生会结合两个特征来判断；

训练：老师布置作业给学生，要去识别更多图片中的水果；

评估：老师给不同学生打分，发现结合两个特征来判断的学生做对的题目更多；

修正：其他学生参考高分答案，也学会了更优秀的“学习模型”，通过不断地修正，整个班级的最高分和平均分都提升了！

而根据训练机器的数据集和训练目标的不同，机器学习可以分为三种方法：监督学习、非监督学习和强化学习。

监督学习（Supervised Learning）

所谓“监督”，是指人类作为“老师”去监督机器学习，即人工标记了训练数据的预期结果，例如给机器输入一大堆标记为“猫”的图片，和一大堆标记为“狗”的图片，让机器再去尝试判断其他图片内的是“猫”还是“狗”。人类对算法判定结果的对错打分，帮助算法提升。

非监督学习（Unsupervised Learning）

非监督学习使用的是不带标记的训练数据，这更符合现实需求，因为很多要处理的数据连人类也不知道应该怎么标记，但却希望机器能将它们归类，或者找出之间的关联。比如给机器输入一批动物的图片，机器能学习到不同动物的特征，将“猫”的图片分一堆，“狗”的图片分到另一堆。

强化学习（Reinforcement Learning）

最后一种方法叫做“强化学习”，人类没有给机器一堆数据进行分析处理，而是给机器设定一个目标任务，让机器自己通过经验教训来成长，在一路的摸打滚爬中逐步走向胜利。例如AlphaGo和人类对战围棋，就是输了无数次后逐步掌握套路，最终战胜人类的“励志故事”。强化学习区别于前两种方法，关注的不再是某个判断是否准确，而是行动过程能否带来最大的收益。

AI的智慧大脑指导“行动”

机器分别具备视觉、对话、学习能力，也只是打开了机器与世界接触的更多维度。而具备一颗智慧大脑能调动各项能力，从而指导自己“行动”的AI，才是可以辅助人类进行决策、协助或替代人类完成某些工作的“真智能”，我认为无人驾驶和机器人是目前较为成熟的“真智能”应用。

自动驾驶汽车（左）和人形机器人Atlas（右）

无人驾驶系统是一个充分结合AI各项技术的系统，其使用视频摄像头、雷达传感器，以及激光测距器来了解周围的交通状况，这属于“视觉”的部分。而通过学习，还能按交通标记和导航路线来判断是该停止还是转弯，还能进行会车和避让行人。

而机器人学是研究让机器自己控制自己的行动的相关技术，主要应用于替代人类完成一些高强度的体力劳动工作，例如物流机器人；或在不适合人类长期停留的环境下完成工作，例如救援机器人。与无人驾驶的原理类似，不同岗位的机器人会掌握不同的知识，并作出合适的决策与行动。

写在结尾

在刚接触AI的基础知识时，我首先感到的困难是AI涉及到非常多的技术概念，它们之间的关系是什么？AI的整个知识体系到底包含到哪些内容？当我回到“人工智能”的概念，思考“智能”指的是什么？为什么需要“人造”的“智能”？发现如果把AI类比为人类，就会更容易理解AI各分支领域的初衷和原理。希望读完本文的你也能够向小白解释AI是什么，在未来工作中如果遇到AI的命题也已具备基础的知识背景。如果你对本文有疑问，也欢迎指正与交流。

作者：Daisy Wu

写给设计师的AI扫盲帖