驾驶场景下的语音交互

Why is voice user interface?

先抛出一个问题，试着回忆一下，你在开车时是如何操作导航的？

30s 过去了。

华丽丽的分割线 ---

答案大类上无非两种：

与手机交互
与车载导航交互

那么，具体的交互方式呢？

使用手，亦或是语音？您觉的哪一种更方便呢？

孰优孰劣暂不下定论，我们试着分析一下语音交互出现的原因。

笔者曾听一位百度云的副总裁说：『人机交互方式由传统的鼠标，键盘转移到了今天的 Touch 交互。而下一个交互方式的重大变革便是语音交互』。

Assume『人终究是懒的吧』。暂把这条设为定理一。

基于该法则可以推出定理二: 能让人懒的方法可以获得喜欢。

那么，怎么能让人懒？

降低人的学习成本
提高人的操作效率

此时再看 VUI (Voice user interface)。语音交互具有学习成本极低的特点。只要能清楚的用语言表达目的即可。

但是 VUI 并不能完全保证提高人的操作效率。因此，笔者认为：VUI 最高效的应用场景是『用户明确知道任务目标，且语音交互的速度要快于接触式交互』。

以上，我们再回到驾驶场景中。

人有五感 — 形，声，闻，味，触。从安全驾驶的角度考虑，视线需要长时间观察路况，不宜频繁打野。信息输入层面上，耳『听』更具有优势。

大脑处理信息后，需要进行信息输出。由于双手『触』受限于方向盘，再从安全的角度考虑，口『说』的优势又体现出来了。

综上，笔者理解的驾驶场景下的语音交互的适用功能为：

司机对任务目标很明确，如：播放某某歌曲，且该任务通过语音操作的效率高于接触式操作。

How to do VUI design?

General Interaction Flow: 语音获取 -> 语音处理 -> 信息呈现。

类似于 GUI 设计，设计师需要考虑信息的收集，处理，呈现。只是多了语音这个信息载体。

设计流程如下：

Requirements: 明确商业上的需求和用户的需求，进而确定产品的需求
Flow: 从需求出发，梳理出交互流程
Prompts: 针对每一个流程，设计语音提示
Grammar: 针对语音提示，设计语法收集语音反馈
User testing: 完成设计后，通过用户测试手机反馈
Tuning: 针对反馈，进一步完善产品

Requirements

产品需求定义是决定一个好产品的核心。只有把有限的资源集中在『刚需』功能上，用户最后才会买单。后续一切的设计，开发才有意义。

Requirements design -- It is always a balance between business interest and user interest.

笔者认为，盈利导向性产品中，需求设计总是在商业利益和用户利益之间发现一个平衡点。如果涉及到公司政治因素，商业利益也包括领导的利益和团队的利益。

你需要知道公司每个部门的想法是什么，领导的想法是什么？这是保证项目顺利实施的核心。其次，产品必须要用户获利，否则这个项目本身不具有任何意义，除非你想做官僚式产品。

设计师需要考虑商业，公司，人事，用户等各个方面的问题，理性平衡各方面因素，从而达到一个暂时的最优解。

由于软能力层面不可一概而论，本文后续只从用户体验的角度设计功能。

Flow

当功能确定之后，需要详细梳理功能的流程。

流程应该反应功能的优先级，同时，确保用户的每一步操作都有相应的反馈。

笔者觉的在这一步，团队成员之间可以多多交流，多讨论流程有哪些可以优化的地方。尽可能的完善流程，以避免后续改动造成的额外成本。

其次，VUI designer 和 GUI designer 应该在这个阶段就开始多合作。鉴于车载的中控屏幕， Kombi 显示屏，和 HUD（Head-up display），一个良好的 GUI 界面对于提升 VUI 的用户体验是至关重要的。

在提示信息，显示信息以及错误提示时，图形界面都可以很好的辅助用户进行语音操作。二者相辅相成，缺一不可。

Prompts

在对话设计中，需要设计师对于该门语言有着深刻的理解，包括但不仅限于：停顿，语调，用词，强调等。

每一门语言都有着其独特的 Prosody，这需要课外进行大量的积累。笔者自觉知识有限，这里仅从信息呈现的角度谈谈如何设计对话。

以下内容参考 Amazon Alexa Voice Design Guide

清晰的告知用户该做什么
保持简洁
避免过多选项
提供帮助选项
只询问必要问题
有选择的让用户确认
一次只处理一条信息
让用户知道所处上下文
一次不要呈现过多的信息
信息可听度
避免使用专业术语
错误时再次提示给用户指导
错误时提供帮助入口
错误时不要责怪用户
提前预测错误

具体案例大家可以查看 Amazon 原文。

笔者这里主要强调 10.信息可听度 和 12.错误时再次提示给用户引导。

信息可听度

VUI designer 写的文字最后会通过 TTS (text to speech) 的技术读出来。因此，看上去没有问题的书面用语有时在读出来时会变得不那么自然。所以，建议设计师把对话大声多朗读几遍，这会非常有助于你感知真实的用户场景。

And of course, your ears will tell you how it works.

错误时再次提示给用户引导

在 Voice: user interface design 一书中，作者提到了两种错误提示的方式。一种是完整提示，另一种是快速提示。

区别如下：

完整提示

System: 请输入密码？
User: 假如用户输错了或不知道密码，此步骤失败
System: 密码错误，请再次输入？如果您忘记密码，请登陆 APP 个人界面重新设置密码。

快速提示

System: 请输入密码？
User: 假如用户输错了或不知道密码，此步骤失败
System: 密码错误，请再次输入？
User: 加入用户操作再次失败
System: 密码错误，请再次输入？如果您忘记密码，请登陆 APP 个人界面重新设置密码。结束操作请说『结束』

笔者认为，完整提示更倾向于 Memory load 比较大的操作，用户很容易忘记的内容。很大概率上，用户需要完整的提示在指导其进行操作。

反之，快速提示则更适用于 Memory load 比较小的操作，用户误操的可能比较大，因此首次错误提示应该更加简洁，以高效为首要目的。

可针对具体应用场景进行选择。

Grammar

语法层面设计到一些复杂的技术，笔者根据技术识别流程简单介绍下。

Recognition flow

判断结束点
提取有效信息
识别
自然语言理解
对话管理

判断结束点

End point

从发出声音到结束声音，截取声音片段。

提取有效信息

Feature extraction

通过处理技术，将声波识别成为一个个发音单元。

识别

Recognition

根据 Dictionary 中的发音单元和单词的匹配，将发音单元识别成特定的文字。

自然语言理解

Natural language

通过算法对文字就行处理，理解其想表达的含义。

对话管理

Dialog management

针对此轮对话的含义，从而进一步设计下一轮对话。

其中最核心的部分是在识别模型这一块。

Recognition model

目前主要有两大识别模型: Rule based grammar 和 Statistical language model (SLM)

两种语法的目的都是为了充分理解用户说的内容，从而指导用户进行下一轮对话，区别在于其实现的技术手段。

Rule based grammar 即为人工定义，利用 voiceXML language 手动定义语法的 slots 和 filler。slots 即需要识别的内容，filler 用于帮助定位 slots.

//Example 1
.GETDESTINATION (?PREFILLER CITY ?POSTFILLER)
PREFILLER [ (I want to go to) (I am going to) (I need a flight to) (?I’m going to) ]
CITY [ (new york) (the big apple) (san francisco) ]
POSTFILLER

//Example 2
.GETCITIES (?PREFILLER 
[(from CITY: orig to CITY: dest)
(to CITY: dest from CITY: orig)
] {<origin-city $orig> <destination-city $dest>}
?POSTFILLER
)

SLM 则是通过机器学习的算法，基于数据训练出来的自动识别语法。在大数据的背景下，可以实现自然语言理解的功能。其优点是可以允许用户按照自己的想法说出内容，不受限于 Rule based grammar 的有限识别范围。

可以理解为基于人工智能（AI）的语音识别技术。国内比较领先的两大技术提供商科大讯飞和 DuerOS. 其手机端的识别能力笔者在第一次体验时深深感受到了人工智能震撼。

理解技术背景有助于设计师更好的与工程师进行合作，辅助工程师设计出更人性化的语音识别技术。

User testing

测试这一环节和 GUI 基本一致。

可以内部先按功能流程测试，记录下不完善的地方。

然后根据用例，小规模组织实际用户进行测试，记录下反馈。并在测试完成后进行 Group research 收集用户更多主观上的感受。

等产品上线后，有了大规模的产品数据后，采用 hotspot analysis. 针对使用率高和退出率高的区域进行监听，然后分析其原因。

不同的地方是我们可以在 VUI 的早期测试环节使用 Wizard Demo. 即通过环境设置让用户觉的语音是机器识别并进行反馈的。实际上是通过测试员在幕后模拟机器发出的。

Wizard Demo 开发时间短，成本低，同时又能很好的扮演实际产品的测试功能。可以运用在 Prototype 技术成本较高的项目中。

Tuning

润色。

好的产品都是不断迭代而来的。一口气不可能吃成个胖子。

针对 User testing 中发现的问题，repeatedly iterate until the end.