随着人工智能研究的深入,以及移动设备计算能力的提升,人工智能有了越来越多应用场景——AlphaGo战胜围棋大师、手机厂商纷纷主打AI智能拍照功能、多家厂商推出智能语音助手、无人驾驶领域形成神仙打架格局等等。但是AI到底是什么?AI能做什么?作为互联网从业者、一名设计师,我们的工作会产生什么变化呢?带着这些疑问,我对AI的相关知识进行了一番调研,本篇先聚焦在AI的基础概念和技术原理,希望设计师同行能通过本文对AI有一个初步的认知。
人工智能的含义
所谓“人工智能”,就是人造的机器智能,让机器能表现出人类的智慧。让我们回忆一下人类的智慧成长过程是怎样的:一个小孩从一出生就开始用眼睛观察世界,慢慢学会说话跟人交流,还学会走路,而长大的过程中也一直在学习更多知识与能力,最终能处理越来越多的问题。人工智能现阶段就相当于一个小孩的智慧水平,具备了初级的视觉、对话、学习的能力,能针对特定的场景进行决策与行动,从而能帮助人类完成一些工作及解决问题。下文我将按照机器不同的智能表现,对AI各分支领域产品和技术进行简单介绍。
AI的“眼睛”模拟人的视觉
所谓AI模拟人的视觉,是指让机器代替人眼对目标进行识别、跟踪和测量,例如从图像和视频中识别出不同对象、识别人脸辨别身份、识别文字内容等。开篇提到的手机“AI拍照”就是利用对图像的识别完成的,先识别出不同的拍照场景和物体,比如“夜景”、“美食”、“人像”等,然后根据拍摄场景来调整适合的摄影参数,就可以帮助用户一键拍出“美照”。
视觉是人类与生俱来的能力,而其他人会不断教育小孩其观察到的物体是什么,人便逐渐对世界产生认知,当再看见相似物品也能识别判断。AI的视觉也是类似的过程,相关的技术称为计算机视觉(Computer Vision, 下文称CV),可分为三个步骤:获取图像、图像处理和图像识别。
获取图像
严格意义上,获取图像的技术不算是人工智能的分支领域,在AI“火”之前也已经有这些技术了。与人类只有一双眼睛不同,机器可以通过多种感应器来获取图像,除了摄像头外,还包括雷达、红外线、超声波接收器等方式,所以AI的视觉通道会更丰富。
图像处理(Image Processing)
传统的计算机技术中,计算机对图片能了解到的只有大小、尺寸、每个像素点的色值、灰度等信息,图像处理主要是指图像压缩、增强等。而CV则是要了解图片内包含了什么内容,其图像处理阶段则主要是对图像进行分割,提取边缘、区域等特征信息,这是进行进一步识别的基础。
图像识别(Image Identification)
CV的关键是能识别出图像中的内容,如识别文字(如“I”还是“1”)、识别物体(如“狗”还是“猫”)、识别场景(如“夜景”还是“逆光”)。人类能识别所看到的内容,是因为人类可以将物体的特征与经验知识进行比对。例如兔子有长长的耳朵就是特征,而“经验”对机器而言则是一个图片数据库,其包含了大量标记好特征和结果的图片。机器通过检索和比对,进而完成识别任务。
人脸识别(Face Identification)
人脸识别是CV的重要分支,是更高阶的图像识别技术,其目标是对图像中的人像进行身份识别,能够在不同的脸部表情、角度、光照、年龄特征等条件变化时,仍能识别出哪些图像是属于同一个人,主要应用于身份认证和监控系统中。
AI的“听”“说”系统实现与人自然交流
AI更高级的智能表现是具备和人类对话交流的能力,能听懂和说人话,这样的好处是人与机器的交互不再需要通过按键来传递指令,而是可以直接通过自然语言向机器传递想法,代表的产品有Siri、智能音箱、AI客服等。现在你拨打银行的客服热线,已经不再需要根据它的提示指令不断输入数字了,而是可以直接提问(比如“我要开卡”),这就是AI技术对交互体验的提升。
要实现机器与人类对话,需要机器具备三种能力:听懂、理解、和回答,这就分别对应了三种重要技术:语音识别、自然语言处理、和语音合成。
听懂——语音识别(Automatic Speech Recognition,ASR)
人类说话发出的是声波,但机器不能直接处理音波信息,因此要将声波信息转化为机器能处理的信息。ASR实现的就是将语音信息转化为文字,例如你在微信收到一段语音信息,但当下不方便听语音,那么你通过“翻译成文字”功能就能看到这条语音信息的文字内容。ASR会先将音波转换成数字信息,然后再通过声音模型和语言模型将数字信息逐步转换成字、词、再到句子。
理解——自然语言处理(Natural-Language-Processing,NLP)
假设我这周末要去杭州,我想了解航班信息,我可以搜索“广州到杭州航班”,搜索引擎会根据关键词给我匹配结果。但如果我是对机器说一句“我这周末要去杭州,帮我查一下航班”呢,这是我比较自然的表达,机器就需要从这句话提取出相同的关键词,了解到我的意图是要查询机票,并明白“周末”是时间条件。NLP实现的就是让机器对人类自然语言进行语义分析和理解,还要结合上下文去了解人类的情感和意图,另外也要将处理的结果组织成人类语言作为响应。
回答——语音合成(Speech Synthesis),也叫文本朗读(Text-To-Speech,TTS)
当机器听懂和理解人类说的话之后,更自然的响应方式当然是用自然语言“回答”人类,这就需要TTS技术来将文字转化为语音。除了语音助手进行回答外,高德地图的明星语音包也是TTS应用的优秀案例。先让明星录制一套基础导航语句,以及录制可提取其声音特征的简单语句,就可建立起一个语音库。在用户使用语音包时,导航系统会根据文案先从语音库中匹配已录制的音频。而没有覆盖到的语句,则可基于统计模型来预测文字的发音,然后模拟明星声音特征来合成音频。最后把两种来源的音频拼装成完整的语音,再播放出来即可。
AI的“大脑”模拟人的学习能力
AI最关键的是让机器能像人类一样思考,相关的技术称为机器学习(Machine Learning),它是实现AI各项技术的重要途径。前文提到的图像识别、自然语言处理等技术,也需要依赖机器学习来提升其精确度和智能水平。机器学习的主要任务,是从数据中分析出规律,从而进行分类和预测。比如AI推荐算法可以找出你所阅读的新闻之间的关联性,继而进行个性化推荐。还有AlphaGo和王者荣耀的“最强人机”,则是通过学习游戏“套路”达到能与人对弈的水平。
机器学习与传统算法的区别
机器学习区别于传统算法的特点,是其可以对自身算法进行完善。比如要识别图片中的数字是几,传统算法其实也可以通过穷举比对来识别。但当要识别不同字体的手写数字,传统算法就难以穷举了。而机器学习的思路则是不断去做“识别手写数字”的练习,慢慢从不及格练到90分。
训练机器的步骤
训练机器的过程类似老师教一群学生上课,比如要教学生识别水果,可分为几步:
训练数据集准备:老师准备图片,并且告诉学生这个是苹果,那个是香蕉;
选择学习模型:有的学生学会用颜色来判断,有的学生通过形状来判断,有的学生会结合两个特征来判断;
训练:老师布置作业给学生,要去识别更多图片中的水果;
评估:老师给不同学生打分,发现结合两个特征来判断的学生做对的题目更多;
修正:其他学生参考高分答案,也学会了更优秀的“学习模型”,通过不断地修正,整个班级的最高分和平均分都提升了!
而根据训练机器的数据集和训练目标的不同,机器学习可以分为三种方法:监督学习、非监督学习和强化学习。
监督学习(Supervised Learning)
所谓“监督”,是指人类作为“老师”去监督机器学习,即人工标记了训练数据的预期结果,例如给机器输入一大堆标记为“猫”的图片,和一大堆标记为“狗”的图片,让机器再去尝试判断其他图片内的是“猫”还是“狗”。人类对算法判定结果的对错打分,帮助算法提升。
非监督学习(Unsupervised Learning)
非监督学习使用的是不带标记的训练数据,这更符合现实需求,因为很多要处理的数据连人类也不知道应该怎么标记,但却希望机器能将它们归类,或者找出之间的关联。比如给机器输入一批动物的图片,机器能学习到不同动物的特征,将“猫”的图片分一堆,“狗”的图片分到另一堆。
强化学习(Reinforcement Learning)
最后一种方法叫做“强化学习”,人类没有给机器一堆数据进行分析处理,而是给机器设定一个目标任务,让机器自己通过经验教训来成长,在一路的摸打滚爬中逐步走向胜利。例如AlphaGo和人类对战围棋,就是输了无数次后逐步掌握套路,最终战胜人类的“励志故事”。强化学习区别于前两种方法,关注的不再是某个判断是否准确,而是行动过程能否带来最大的收益。
AI的智慧大脑指导“行动”
机器分别具备视觉、对话、学习能力,也只是打开了机器与世界接触的更多维度。而具备一颗智慧大脑能调动各项能力,从而指导自己“行动”的AI,才是可以辅助人类进行决策、协助或替代人类完成某些工作的“真智能”,我认为无人驾驶和机器人是目前较为成熟的“真智能”应用。
无人驾驶系统是一个充分结合AI各项技术的系统,其使用视频摄像头、雷达传感器,以及激光测距器来了解周围的交通状况,这属于“视觉”的部分。而通过学习,还能按交通标记和导航路线来判断是该停止还是转弯,还能进行会车和避让行人。
而机器人学是研究让机器自己控制自己的行动的相关技术,主要应用于替代人类完成一些高强度的体力劳动工作,例如物流机器人;或在不适合人类长期停留的环境下完成工作,例如救援机器人。与无人驾驶的原理类似,不同岗位的机器人会掌握不同的知识,并作出合适的决策与行动。
写在结尾
在刚接触AI的基础知识时,我首先感到的困难是AI涉及到非常多的技术概念,它们之间的关系是什么?AI的整个知识体系到底包含到哪些内容?当我回到“人工智能”的概念,思考“智能”指的是什么?为什么需要“人造”的“智能”?发现如果把AI类比为人类,就会更容易理解AI各分支领域的初衷和原理。希望读完本文的你也能够向小白解释AI是什么,在未来工作中如果遇到AI的命题也已具备基础的知识背景。如果你对本文有疑问,也欢迎指正与交流。
作者:Daisy Wu