今天晚上整理电脑,偶然看到一年前发给Misa的邮件。作为Echo重度用户,尤记得那个阶段兴奋的睡不着觉,各种查阅资料,做用户调研,想找到一切证据来证明语音交互+人工智能就是未来。之后不到半个月就义无反顾的加入了rokid,梦想着做出一个完美的陪伴型智能助手。
现在想想这份梦想和激情,可能也是我为什么在半年不到的时间里组建美国的产品团队,忽悠一堆大牛加入的利器吧。(在硅谷招聘过就知道有多难,最近好多朋友让我帮忙招人。。以后可以转职到猎头这个高级职业了)
回头看当时的部分设想,在现在这个时间点也值得去探讨一下,欢迎大家来交流。
几个核心观点:
1。 语音因为它一维的特性,很难独立成为一个像GUI那样的主流交互界面,但语音+GUI(手机屏幕,AR/VR)很有可能是中长期未来的主流交互方式。echo show算是amazon在这个方面的一次尝试。
2。 智能类产品的体验在近期无法依赖于技术,更多的是在产品功能上限定使用场景,深挖用户在单一场景内的需求,从而使用较小量且高密度的数据来训练模型,再结合规则和运营的方式来提升终端体验。
3。 用户profile。通过开机的用户引导,日常的核心APP使用行为,以及自动的运营小问卷,搭建一个丰满的用户profile。这样接下来可以把部分attribute封装成API给到平台上开发者使用,这样做出更personalized的体验。
4。 时间+空间+个性化。智能语音助手应该知道我在哪儿,现在的时间,以及我的喜好(profile),给我的信息回复和行动都要依赖于这三个要素。最傻的一个例子:我在客厅问XX,把灯打开。助手应该知道要关客厅灯,而不是卧室灯。 其他例子见下方邮件原文。
5。自动化与语音交互的结合。语音的消费成本很高,而且现在只能实现简单的命令,那些包含多actions的复杂语音,根据现有技术很难被有效的分拆成subtask并同步执行。我坚信在不久的将来,vitual assistant(助手)将足够了解你,并proactive/自动的完成你即将需要的tasks,语音只是我们人类不定期的主动干涉他的自动化进程。详细例子见邮件的最后一段。
6。(新)智能助手在云端,然而它无处不在的。在你家里的每一个角落:电视,音响,冰箱,洗衣机,台灯;伴随你行走在世界的每个角落:手机,耳机,眼镜;�存在世界每一个不属于你的角落:商场里,你的朋友家里。。
希望能够早日做出理想中的智能助手,Rokid美国产品团队持续招募中
有兴趣的同学,请发邮件至 Reynold.wu@rokid.ai
详见原邮件@2016(比较casual的邮件,不要纠结文字/语法):
“
人工智能和语音接口的未来?Echo类产品到底解决了什么问题? 最好的产品形态是什么样的?
首先,我认为语音接口会成为一部分任务的入口,然而短期内并看不到其成为独立的主流接口。语音输入即使在人与人的交互中也仅占到了一小部分(约33%),人们通过眼神,肢体语言,以及文字等传达更加丰富的含义。 在人机语音交互上,人们的整体体验并不是很好,用户往往要以机器为中心的可以调整自己的语音,语速,位置来提高识别率。即使语音,语义的理解达到了一个更加突破性的发展,语音接口本身也仅能通过自然语言发送简单的干涉命令,以达到获得信息,和处理简单任务的效果,用户在很长一段时间内并无法用语音来执行很复杂的命令,尤其是需要投影在现实世界的任务。未来语音很可能是与图形界面或VR类界面相结合成为下一代的人机交互界面。
再次,通用人工智能离我们还有很长一段距离,然而人工智能在应用层面上可以代替人类记忆,并辅助执行那些高度依赖于经验/记忆的任务。按照这样的思路,我们可以把通用需求切割成很多具体的场景,并按照场景来制定不同维度的任务。人工智能在学习每一个任务中的历史数据与用户本身的需求相关联后,提供反馈回到用场景,最终综合输出information, or suggested action. 不过现在总体来说人工智能在人机交互中的体验并不是很好,比如现在火热的chatbot,几乎都是智障级别的。不过Google Allo在人机交互上做的闭环conversation尝试, 有很多值得思考和学习的地方。我认为从技术角度来看,短期内以纯人工智能来解决广义场景内的人机交互,并不会有很大的体验提升。
回到产品的角度来看,现在的2C智能硬件产品大都是nice to have,而远没有达到must的级别,究其原因还是功能和体验都不达标。Echo作为一个在家居中心/智能助手类的开创性产品,在市场规模上取得了很大的市规模,然而也只是停留在want-to-have的阶段。
那我们来分析下Echo这款产品:
Echo作为第一代语音智能中心,起到了教育市场和启迪用户的作用,不过它还远远不能解决用户对不同场景的需求。我认为该类产品除了提高语音/语义识别的工程学问题之外,最重要的是如何更好的利用时间,空间,以及个性化这三个元素。
智能助手需要充分的理解用户的时间特性,空间特性以及个人信息,在做相关性后,自动帮助用户完成大部分工作,然后通过语音接口去干涉现有的和新的任务流,成为用户极为依赖的产品。(根据场景,参考场ifttt里一些最受欢迎的自动化任务,让智能助手在后台处理这些任务。 )
时间的概念:用户所在地时间;用户的日程;用户去下一个appointment所需的时间;用户起床的时间;用户睡觉的时间;用户出门/回家的时间,用户睡觉的时间等等这些信息都可以通过连接用户的其他账户,和使用习惯获得。
空间的概念:用户/产品所在的地理位置;用户calendar上每一个会议的地点;用户查询的附近XX的地点;产品所在的具体空间(比如客厅还是卧室)等等这些信息都可以通过连接用户的其他账户,和使用习惯获得。
个性化:用户最喜欢的歌曲,电影,书籍,菜式,明星,新闻,提问方式,家庭关系,以及其他个人信息。
这些信息可以通过产品向导(initialize)与用户的交流中获得,用户往往在第一次使用的时候最有耐心,也更愿意提供自己的信息。获取用户个性化信息的方式上,仅仅通过有限的日常语音交互是远远不够的,我相信设计一套结合心理学的用户注册引导流程是至关重要的,现在大部分的智能产品都仅仅停留在快速开机setup的阶段,并没有很好的利用这个机会来收集用户的关键背景数据。 其他的信息的获得可以通过学习用户的使用习惯,以及增加本地的个人信息数据库(这些信息都是我的私人助手或家庭成员应该知道的,比如我家庭成员的名字,生日,喜好等等)
举个例子:
(日程管理)我问:我晚上的dinner party是什么时候?
1。nice-to-have的助手会回答:你在dinner在下午7点在XX。
2。must have的助手会回答:你在7点跟YY在XX有个会,根据以往的交通,我建议你6点出门,走101high way。之后我可以接着问,YY最近的三条facebook写了什么。。 rokid会回答我。(这样我就知道YY最近在关注什么,会面的时候就可以找些话题。)
(家庭关系) 我问:我儿子(或者问Ethan) 的生日是哪天?他会回答我5/XX,离现在还有一星期,你记得买礼物哦。
(任务管理)我问:我晚上10点问,我今天还有什么要做的么?rokid 回答reynold 你今天还有2个todo没有做,要我帮你推迟到明天么
(健康)我问:我晚上10点问,我今天身体怎么样?rokid回答 你今天一共吃了XX卡(myfitnesspal), 做了xx分钟的运动(ihealth or fitbit or similar apps),我觉得你棒极啦。
(娱乐)我问:今晚的westworld出来了么?rokid回答,已经播出了,需要我帮你放出来么?if yes, 接入hbo,然后投影到电视上。
(社交)我问: 最近我的微博好友上有什么好玩的动态?
(智能家居)我问:前门的灯等天黑后就自动打开,天亮了就关掉。 or 不下雨的天就把前院的草坪浇水 or 我离开家就把空调关了,我到家前30分钟把空调打开(这些现在都很容易用ifttt做到);在自动化已经设置好,而用户通过语音来干涉的例子:我发出新的命令:rokid,我今天下午有朋友来,你今天可以把家里的暖气一直开着。 (结果是今天的暖气一直开着,过了今天后,暖气自动回复到之前的routine schedule上。)
如何做到有温度,最懂你的家庭中心/私人助理/陪伴机器人,我认为应该选取几个关键场景;取得该场景内的与用户有关的所有信息,并深入整合出可执行的信息供用户获取和操作。另外就是这个助手/家庭成员,应该能够自动的执行自己的既定任务,并提供语音接口来与用户交流。
对于我个人来说,语音助手已经是很重要的家庭元素,通过添加更丰富的skill和个性化设置,产品会产生越来越强的依赖性和乐趣。