VUI可以通过哪些方式回复输入的信息?
不同类型的语音输入
1. 受限回复
比如,英文单词“fine”这个词经常被误识别为“find”(与比较长的词组相比,短词更难进行语音识别的解读和处理,相较于“fine”而言,“I‘m fine”更容易被语音设备识别)为了解决这类因发音相似带来的错误的识别,我们需把英文单词“find”映射到“fine”。总结下来,就是将常见的错误识别结果归到正确的结果的分类里。
2. 开放式对话
当用户给出的回复对下一段对话内容并不重要时,可以设置一个通用的答复。
比如下面一段对话:
喜剧演员:“你起得很早。我是喜剧演员,通常会睡到中午。你这么早起来做什么?”
用户:“我为了早起吃顿丰富的早餐。”
喜剧演员:“你可真幸运。我早上六点就被吸尘器的噪音吵醒了。”
喜剧演员:“你起得很早。我是喜剧演员,通常会睡到中午。你这么早起来做什么?”
用户:“我得去上班。”
喜剧演员:“你可真幸运。我早上六点就被吸尘器的噪音吵醒了。”
另一种策略是让用户知道,其他人也将听他们的答案。
3. 分类输入
将一组回复归到一个分类下,而不是映射到一个确切的词条。
比如,你感觉怎么样?
快乐:开心、喜悦、很棒、兴奋、良好、不错等
悲伤:难过、沮丧、不好、不开心、烦、伤心等
VUI可以将这些词作为同一个分类来处理,而不是具体的词条。
4. 通配符和逻辑表达式(扩充语料)
如果你想让自然语言理解更进一步,必须纳入更多、更复杂的特性。比如通配符和逻辑表达式。使用通配符后,就能通过重复某些特定的词语使语义匹配更加灵活,而无需设计者一一举例。
比如,我的电脑真的*很慢(“我的电脑很慢”、“我的电脑真的很慢”、“我的电脑真的真的很慢”)
当人们需要闹钟叫醒时,可以说,“帮我明早七点的闹钟”/“明早起点叫醒我”/“我明天早上七点钟起床”,人们的表达是多种多样的,我们需要根据问法写下表达式,表达式可以帮助显著提升识别精度,而无需大量的设计投入。
消除歧义
人们在对话时通常不会表达完整清楚,通常需要继续追问以确保我们了解对方的真正意图。在与VUI交谈时,遇到这样的情况会比与人类对话时更多,因为VUI不能感知上下文信息。
1. 没有足够的信息
当同一个词条有多个含义时,比如,当用户询问VUI某一地方的天气,如果同样名字的地方有很多个,这时VUI需要继续询问哪一个地方。
另一种情况是缺少意图,比如,当用户要求播放《记得》时,由于《记得》的版本有很多,VUI需要开启多轮对话,询问用户需要播放哪个版本的。
2. 当系统只需要一个信息,而用户提供的信息不止一条
当用户提供了过多的信息时,比如当用户和一个医疗VUI描述症状时,用户说了自己既发烧又咳嗽,这时VUI可以询问哪个症状最困扰用户,然后回复用户先处理症状重的,再处理症状轻的。再如,当用户拨打电话给某个联系人时,若联系人重名,系统需要帮助用户消除歧义,需要询问用户想要拨打给哪一个联系人,或者依据用户打电话的频率进行智能取值。
3. 否定处理
捕捉意图和对象
用户使用VUI时,通常只有一个“意图”,只想进行一个操作。一个高级的系统可以独立确认用户对于某个对象的意图。于是在进行自然语言处理时,必须进行问法扩充,比如,我们可以通过语音助手完成许多和日历有关的事件,查看日历、添加日程以及取消日程。如果在系统中仅仅匹配了关键词“日历”是不够的,VUI设计师必须进行和日历相关的关键词扩充,比如“日程”和“会议”等。
对话管理
对话管理的意思是对既往会话中已产生的信息,以及在后续对话中所需要的信息进行管理的行为。
不要晾着用户不管
就算没有识别用户的意图,也要给予反馈
VUI要显示识别到的信息吗
当用户发出语音指令时,语音助手类的VUI会语音转化成文字显示在屏幕上表示语音正在录入。
情感分析和情绪检测
运用情感分析可以使你的VUI更智能,更具有同理心,比如通过声音语调分析进行情绪检测。情绪检测对于技术来说非常有挑战,要记住一条关键原则:宁求稳妥,不愿冒险。
文本转语音和语录语音
预录语音
优点在于容易改变,可以迅速创建新的提示,缺点是花更多的钱和时间,并且文本语音转化并不总是正确的。使用声优录制语音时,语音的衔接策略很重要。比如,录制电话号码时如何停顿,一个很长的句子如何断句,录制这些前需要进行语音的衔接处理,这能让你的系统听起来更自然。
设计优秀的VUI用户体验的另一个原则是:如果某些信息用不到,就先不要问用户。比如,当你在使用购物App时,没有必要事先收录收货地址等信息,等用户下单时再询问地址。这个原则,与GUI的设计原则是一致的。
唤醒词
唤醒词就是唤醒VUI设备的词汇。比如“hey, siri"、“OK, google"这类的。唤醒词是一种不需要身体接触设备,就可以唤醒VUI交互的非常便捷的方式。比如,当你手上沾满面糊或者开车的场景下,使用唤醒词是很管用的。只有系统确认识别到了唤醒词,你的App才可以开始不断接收和记录用户的音频。
语境
VUI对话最大的障碍就是缺少上下文语境,人类之间的对话通常可以感知上下文,都会出现误解的情况,更不要提与VUI设备对话了。记住对话的细节相当具有挑战性,但你仍然可以利用基于上下文的信息让你的用户界面看起来更加智能,并节约用户时间。
比如,当你确定了用户在哪个时区时,VUI设备就可以准确地问候“上下好”或是“下午好”。
高级多模态交互
VUI界面什么时候与视觉界面进行结合,什么时候应该展示内容而不是说出内容,什么时候让用户根据语境通过点击或是语音进行回复。我们可以设计在用户说话后,系统立即显示可视化结果,也可以根据用户手指触控的位置进行回复。比如,当用户指着世界地图中的某个地方询问这是什么地方时,VUI能够通过结合屏幕被点击的位置与语音输入的内容回答这是哪个城市。
自助数据集
VUI设计师需要创建初始模型和关键短语,可以参考以下几个资源:
网站数据
呼叫中心数据
在IVR系统中常用的做法
数据收集
高级自然语言理解(NLU)
很多情况下,语音助手只是进行了网络搜索而无法理解用户,当他们遇到无法回复的请求时,会将问题直接转化为一个常规的搜索指令,而不是真正的会话模式。
小结
为了让你的VUI作用超越基本信息交换,可以利用本章所述的概念,例如,不仅仅只是让VUI识别基础关键词,而是让用户可以输入更复杂的内容。使用自然声音连接策略提高理解能力,使用唤醒词,通过自助数据集或采集数据的方式让VUI更好用。另外,不要为了使用语音而刻意使用VUI,是否添加语音交互元素,完全取决于产品的需求和使用场景。