最近组内做分享，想来想去就讲“语音交互设计”这个主题吧，以下是我分享内容的PPT，内容比较基础。

去年扎克伯格接收了一个个人挑战，去建立一个带语音交互的AI来管理自己的家，叫做jarvis，就是钢铁侠里的那个jarvis，还加上了Morgan freeman的音色，像钢铁侠里的jarvis智能管家相信是很多人期望的。

交互式语音应答诞生于上世纪70年代普及于2000年，拨打10086，你会听到欢迎致电中国移动，智能客服快速查询办理请按6，手机业务请按7，宽带业务请按5，集团业务请按8，重听请按9，人工服务请按0，但是有没有觉得按一串1，0呀，有种摔手机的冲动。

手机语音助手，siri是2011年iphone4s发布会上发布的，Cortana是2014年win8发布会上发布的。一开始大家对这种语音对话的形式感到很有趣，但尝试一段时间后发现，除了让它讲个笑话以及偶尔调戏一下逗逗乐子以外，再也想不到要唤醒它干嘛。

智能音箱，2014年亚马逊发布echo音箱，拉开了远场语音交互的帷幕，智能音箱它具有语音交互可提供内容服务、互联网服务、以及场景化的智能家居控制能力，所以最近几年，国内外的巨头纷纷布局智能音箱市场，Google home，apple home pod，京东科大讯飞的叮咚，阿里的天猫精灵，小米的小爱同学。

一个语音交互系统形象的来说也需要耳朵、大脑和嘴巴。听觉是怎么产生的，声音通过外耳接收，鼓膜和听小骨振动传到内耳，内耳的感受器官把声能转换为神经冲动，再经过神经传入中枢。麦克风拾音就相当于外耳接收声音，语音识别将语音转换为文字就相当于将鼓膜将声波的振动化，语音解析把文字转换成机器理解的语言就相当于内耳感受器官转换为神经冲动。大脑怎么运作我就不知道了，而我们用自然语言处理技术来理解语义，人工智能人工大脑来做问题求解等等。最后通过大脑处理生成一些自然语言句子，就通过嘴来说出来，也就是这里的语音合成。

纵观计算机发展史，人机交互也从DOS系统下的命令行界面 Command line interface，到乔布斯从施乐公司那里触发灵感，用在1984年mac上的GUI，再接着iphone触控交互，再到如今语音交互的研究，我们一直在寻找更加友好的人机交互方式。

VUI有一些优点是GUI无法企及的，第一输入效率高，如今语音识别准确率能达到97%，而一个人一分钟也能说400字，这种打字输入速度是无敌的，所以对于一些行业，能够大大提高效率；第二解放双手，至少不用去触碰键盘或屏幕，而有些场景如开车、厨房里做饭、冬天睡觉躬进了被窝，然而忘关灯了；更为自然的交互和零学习成本，小孩子还小就会说话了，但不会打字，再怎么教爷爷奶奶用手机也会忘记，但是语音是更为自然的，零学习成本的。

当然它也有很多缺点，眼睛接收信息有时间和空间XYZ轴这么多维度，而耳朵接收信息只有时间单一的维度，时间决定了接收信息的多少，是单向的、线性的，有这样一个数据，视觉接收信息是听觉接收信息的100倍，视觉阅读文字是听觉的2~5倍，而且视觉还可以以图片来作为信息载体。所以语音交互系统设计时也需要把视觉表现的信息量尽量压缩在呈现为听觉信息，况且人的记忆力也是有限制的，信息很多，用户还记不住呢，所以也不适合复杂的任务。还有处于隐私的考虑，在一些公共场合也不适合使用语音。

让我们来分析一下刚才这一段对话过程，首先我叫XX的名字，如果他听到了他会回答我“干嘛呢”或一个眼神示意，这样我就知道他在听我讲话，那么我就可以继续说“以上内容理解了吗”，然后他会想一想，然后在回答我“……”，我接收到信息，这样一段对话就完成了，那么我们将人之间的对话提炼出来，就是语音的一个交互框架。

唤醒大概有这么几种，实体按键比如iphone长按home键，虚拟按键唤醒有点击，siri界面底部的图标，还有长按，微信语音输入已经让用户养成了习惯。语音唤醒是最自然的方式，也是双手被占用，远距离场景都是最佳的方式，目前的技术一般要求需要3~4个音节来唤醒，汉字一般一个字为一个音节，英文一般是根据元音来区分音节的，当然唤醒词也要跟你产品想要塑造的视觉形象相关联起来。

怎样来判别设备已经唤醒了，用一些声音、光的方法，比如智能音箱这种没有屏幕，会用带强弱有呼吸的灯效来反馈，Siri这种用声音来反馈，这样就告诉我设备在聆听了。

唤醒的时效性，日常生活中交谈，说了多长时间，有一段时间没有对话了，下一次对话呢肯定需要先唤醒的，但是现在的设备好像都是一两句就结束了，每次都要唤醒。

唤醒设备后就要来对话了，对日常对话中，我们无意识的会遵循一些规则和规律，总结下来良好的对话有轮流、串联、语言的潜在效率，多样性这四点。如何来理解，“轮流”就是指我们互相来回的轮流表达，传递信号，如果缺少有效的轮流互换，又去无回，那就无法保持双方信息上的同步，没办法跟上对方的节奏。“串联”就是指对话是连贯的，会有上下文，比如有时候有的人谈话时会转移话题，但我们不能讲两三句就转移一次话题吧。“潜在效率”是指利用语言的潜在效率，我们在日常对话中会自动补全一些潜台词，有些表达可以不言而喻。“多样性”是指用户说话的多样性，同样的内容，可能会有不同的表达方式，比如设闹钟，我会说，帮我设个早上8点的闹钟，明天早上8点叫我起床。

场景是不管什么UI都是需要考虑的，只不过对话UI的场景一般是比较简单的、直观的、不需要太复杂的互动，而且设计对话UI需要考虑。

用户在哪里？所处的环境是怎样的？用户正在做什么？用户使用的是什么设备？用户要完成什么任务？目标是什么？用户的期望和意图是什么？

试着去满足用户的意图，而不是仅仅考虑提供功能。

分析产品的用户群体，根据这样一个具体的用户画像，我们来设计我们的产品，因为我们设计的不仅仅是一个系统，我们也需要为对话UI中注入“人格”，用户在对话中能够感受到一个人的存在。而且这个听觉形象也要反应一个产品的品牌诉求，让他有个人的特征。在GUI中我们可以通过“色彩、材质、形状、版式、动效、字体”来塑造视觉形象，听觉形象可以用“音色、节奏、音调、响度”的语音设计要素来设计。也要考虑用户场景，比如机场的语音要给用户“被服务的，受到尊敬”的感觉，考虑内容，八卦的新闻用戏谑的情感，历史的听觉感要有沧桑感，动物世界就赵忠祥老师啦。

设计对话，我们日常生活的对话有很多可能性，机器与人的对话也是有多种多样的可能性，所以不能只考虑核心场景，只构建对话的愉悦路径，我们需要列出诸多可能存在的场景，考虑意外状况。系统无法满足用户的请求，系统就需要修复调整整个对话，直到满足用户的意图。所以再强调一点，设计对话要围绕用户的意图，而不是仅仅提供功能。

如今我们已经迈入了远场语音交互的阶段，当然还有很多复杂的场景，分布场交互：主要是指狭小空间内多人识别和响应的问题，最常见的就是汽车场景，现在的汽车智能交互仅仅照顾了驾驶员的需求，但实际应用中可能需要照顾汽车其他乘客的交互需求，这就涉及了多人识别和交互的问题。事实上，随着智能音箱等一系列智能设备的普及，未来我们的家庭就是典型的分布场交互场景。多语种交互：主要适应跨语言时候的自由交互场景，当前Google、百度和科大讯飞推出的翻译机部分解决了一些问题，但是这些翻译机主要还是近场语音，过渡到远场语音交互的难度很大，因为翻译的场景确实太复杂多变了，在数据积累还没形成规模之前，这类技术还很难有实质性突破。等等还有很多场景。

再说听懂人类情感，人类情感是一个更加复杂的过程，人类至今也没搞清楚情感的来源。声纹识别，声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。情感识别，主要是从采集到的语音信号中提取表达情感的声学特征，并找出这些声学特征与人类情感的映射关系。声光融合，声学和光学总是相伴相生，人类的情感也是通过听觉和视觉同时接受分析的，因此机器也必然将语音和图像结合在一起分析，才能更好的理解人类的情感，但是语音和图像在各自领域并没有发展成熟，因此声光融合的研究一直处于被轻视的尴尬地位。

当然还有很多不止这里列出来的这些，所以我们就期待未来吧，相信科技的进步。