前言
2011年跟随 iPhone 4S 苹果发布了 Siri,并于2016年登陆 macOS;亚马逊2014年发布了 Echo 音箱,2017年发布了 Echo Show 有屏音箱。这些产品都是科技巨头在语音交互市场上的一个尝试。今天这篇文章主要想聊一聊为什么很少有软件开发商把语音交互用在移动 App 上。
现状
今年是2018年,在目前这个时间点,我接触到搭载语音交互的设备主要是远场大屏设备(电视、机顶盒、投影仪),车载(中控,后视镜),智能音箱,VR 眼镜。我们把这些产品都称之为语音在强交互场景下的应用,特点如下:
- 传统的键鼠和触控交互在这些产品中有明显的短板和不便捷性。
- 使用场景私密性较强,家中或者车内。
那在其它领域呢?比如移动 App,触控交互已经做得很棒的领域。今年老罗在鸟巢的“李姐万岁”发布会,其实是一个蛮好的尝试,尝试在触控交互的基础上增加语音交互。
我赞同的点是:
- 目前业内还没有认识到语音交互的便捷性,我觉得老罗这个方向坚持对了。
我反对的点是:
- 把语音作为主要交互场景,语音只可能是键鼠和触控的补充,不可能代替。(可能老罗的本意也没有如此,但是发布会那么大篇幅介绍语音输入肯定会让人误解)
- 作为设备生产商去做开发第三方 App 内的语音交互。
- 把 Android 称之为生产力工具,能称之为生产力工具的 再往后看十年也只有 Windows。Android 和 iOS 在办公场景有什么用?举例以下几点,全部是轻办公场景:1.不方便携带笔记本时投屏 PPT。 2.代替白板进行投屏讨论,方便会后总结。3.搭配键盘写一下会议纪要。
再来看一下行业现状,手机助手领域,小爱同学和 Bibxy 对于系统自带应用(闹钟,天气,提醒)的语音交互融合度做得都很棒,但是对于第三方应用,比如微信,就是利用对系统的控制权做模拟点击,其实是一种满蠢又无奈的行为。这种行为带来的后果就是, TOP50 的应用只要小爱同学和 Bibxy 的工程师愿意花时间就可以把语音交互体验做得中规中矩,但是长尾应用的语音交互就等同于没有。而且有些功能在我看来就是炫技,比如“把相册最新的九张照片配文阳光明媚发送朋友圈”,这种骚操作的实用性真的不大,最大的作用可能就是拍个抖音做运营。小爱同学和 Bibxy 还有一个特点是要做全平台的语音助手,不仅仅是手机,还包括智能音箱,智能电视等。
在看智能硬件领域,这个领域目前的状态可以说是百花齐放的,其中雷声最大的应该是百度的 DuerOS,虽然百度把它称之为 OS,但实际上它是一种“后操作系统”,不去做线程调度这些传统操作系统的事,而是借助 HTTP2 协议架设一套 Framwork 在传统操作系统之上,目前绝大多数技术提供商也都是这样玩,完全照搬亚马逊的 Alexa 。这种模式带来的好处是显而易见的,对于设备厂商,适配好 DuerOS 提供的标准协议即可,加之 DuerOS 为各个系统提供了 SDK,集成速度快,而且不仅可以跑在 Android、Linux ,还可以在 RTOS 和 QNX 上也能跑,所有的业务操作都放在云端,想一想把硬件成本控制在50块以下,让一些手办玩具拥有语音交互的能力,还是满吸引人的。
对于 DuerOS 来说,未来的盈利模式可能如下:
1.抢占语音交互入口,延续搜索引擎时代的商业模式。
2.依靠生态赚钱,就是苹果App Store 的方案,语音技能开发者卖内容,平台抽成。DuerOS 3.0发布的时候也着重把付费技能拿出来说了。
3.最后一点就是 IOT 平台,智能家居叫了好多年了,爆发期应该很快就会到来。
类似的平台有小爱同学和天猫精灵,百度陆奇时代的战略是 All in AI,小爱同学有米家,天猫有阿里智能和购物平台,并且阿里和亚马逊是最相似的,电商一直是阿里的主营业务,无屏音箱可能就是用来充话费这种简单操作,但是一旦大规模进入有屏时代,凭借天猫魔盒阿里可以做语音电视购物,对于互联网企业来说,绝不会放着一个可能的流量入口不去抢占。
当然大家都想着做生态,问题就是下游厂商能不能接受。Alexa 因为起步早,话语权大,但是这两年也被 Google Home 侵吞着市场份额。国内大家起步都差不多,设备厂商接受你的生态就意味着要接受你的账号体系,同时定制的自由度降低。
并且在我看来 Alexa 有一个很大的问题,在无屏音箱上,Alexa 做技能商店,统一标准没什么问题,所有技能基本上也有只有 TTS 和 AudioPlay 这两个需求,但是有屏设备上,展示需求是多种多样的,不能依靠有限的几十个模版去做有屏产品,这样做的后果就是把开发技能和接入的便捷性优先于用户体验。
未来
聊回 App 内的语音交互,未来的有屏设备语音交互,首先展示形式不应该受限于模版,其次语音交互的业务逻辑不应该是设备厂商做,而应该是应用厂商做。苹果在2016年曾经尝试开放过 siri kit,但是只开放给了聊天、出行等六大类应用,小爱同学也和招商银行合作,实现语音转账等功能。但是这种试水都有一个问题,就是进入应用后,无法继续使用语音操作,完全是一次性的。在我看来未来的 App 内语音交互应该是,持续的一个过程,触控加语音。
移动 App 内语音交互代替触控交互的场景有两点:
1.需要多次点击的操作,比如买火车票,触控交互在一个应用内买火车票需要选择出发地,目的地,时间,需要滑动选择三个参数非常繁琐,这种情况下如果使用语音“帮我买一张后天上海到北京的火车票”,一句话搞定,更复杂的过滤器功能也能实现,“帮我买一张后天晚上六点以后上海到北京的一等座”,相比如用胡萝卜粗的手指去触摸,效率会有所提升。
2.App 全局导航,类似于 Web 时代的网站地图,现在的 App 层级越来越深,用户想要找一个功能的时候效率很低,如果这种情况使用语音来代替,用户通过语音表达诉求,会带来极高的用户体验。
未来几年,移动 App 厂商应该会逐渐认识到语音交互在某些功能点上优于触控交互的事实。有屏智能音箱,机顶盒也一样,本质上都是 Android 系统。有屏设备绝不是一个 Framework 上跑所有的程序,而是把 Framework 当成 Service,只跑天气、计算、汇率这种很简单的技能,对于股票、健身这种复杂的应用,应当让第三方 App 集成 Service Kit ,然后 Kit 和 Framework通信,相比于现在各大厂商推出的技能商店,更准确的概念应当升级为语音安卓应用商店,然后分别提供 TV 端、有屏音箱端,移动端的应用市场。对于 Android 系统来说,尤其是中国的安卓市场,这个 Framework 到底谁来提供是一块很大的蛋糕,毕竟掌握了 Framework 就掌握了语音交互的入口,以后用户说我要吃外卖,到底是分发给饿了么还是美团,都是 Framework 来决定,显而易见的盈利方式就是竞价排名。
谁最有可能做成功这件事,第一是苹果,无与伦比的生态,第二是微信,微信的小程序其实也可以看做是一个后操作系统。对于其他语音技术提供商,想做成这件事可能要依赖 PWA 技术或者轻应用等技术,但最大的壁垒将会是安卓割裂的生态。
2018年09月01日