随着互联网浪潮的爆发,各种新产品、各种新技术不断被推向用户。
前几天,Apple Watch提供预购,也有不少小伙伴直接去实体店进行了体验,不知道这款产品能不能引发市场新爆点。
在触屏技术发达的今天,在体感交互飞速发展的日子里,谁还记得10年前市场的王者还是Nokia和塞班?
现在,我不谈每天18个小时,而希望用一点时间聊聊和Apple Watch相关度很高的语音技术。
现有的移动设备交互方式对于小屏幕的智能手表来说是不合适的,信息展现方式、用户交互方式都需要进行重新设计,这为语音技术提供了得天独厚的发展土壤。根据小道消息,科大讯飞与中国移动合作的互联网产品“灵犀语音助手”正在紧张研发Apple Watch版本,希望能够尽快进入苹果商店,抢占这块新高地。相信苹果也会对Siri大力优化,毕竟亲生的好处是不可比拟的。
首先,我们有必要了解一下语音技术的三个环节,语音识别、自然语言理解、语音合成。
语音识别:用户说出的话,对于机器来说首先要能够转换成正确的文字,这样才能进行理解。如果我说“附近有什么好吃的”,而识别结果为“附近有什么好玩的”,那么可想而知,后续反馈的结果将不会被我认可
自然语言理解:既然已经识别为计算机可理解的内容,那就要开始内容的理解了,这也是语音技术当前的瓶颈与分水岭。好比计算机已经接收到我在找“附近好吃的”这个信息,但理解成了我在找“附近哪里有WC”,显然结果不会令我满意
语音合成:计算机处理完成,需要给出反馈,除了文字、图片、视频的展现,语音也必不可少,此时文字被重新合成语音,加以接近真人声音的播报,语音合成的技术门槛已相对较低
那么用户怎样使用语音才会最爽呢?当前阶段,自然语言理解的正确率依然得不到保证,一旦不能满足用户预期,那么用户再来一次的成本很高。所以,在设计时需要尽量避免该环节对用户体验产生的影响。
在我看来,未来一段时间内,有关语音技术的使用主要在以下几个方面:
语音输入
语音识别技术已经比较成熟,只要普通话不差得离谱,外部噪音在一定范围内,整句识别率达到85%以上问题不大
在线时可以通过大数据和强大的算法,离线时可以使用离线语音包,整体覆盖了用户使用场景
语音输入的速度优势无可比拟,但是出错修改的成本高,识别准确率的不断提升,会使得语音输入优势愈发明显
电子设备屏幕趋向大小两个极端,语音输入可以比触屏输入更好的适应不同的设备
解放双手仍需时日,但是解放双手的爽感真的停不下来
语音反馈:
结合语音合成技术,能够给用户操作带来更多选择
语音反馈不同于文字、图片、视频,不依赖于电子设备屏幕,而是基于声音输出设备,所见即所得可以升级为所听即所得
很好的补充了用户不能关注屏幕时的使用场景
志玲姐姐的声音都能合成出来,还有啥不可以的
语音控制
语音识别后针对关键字进行解析,至少可以完成简单的语音命令
应用场景不再局限于手机,各种智能硬件想象空间巨大
不再担心距离的限制,语音远程操控也有发展空间
语音技术被说了那么多年,尽管Apple Watch来了,但是真正被使用的频率还是偏低,在未来,还有很长的路要走。这两年,移动互联网已经将人们的想象空间不断扩大,我对语音交互的未来充满期待!如果自然语言理解领域取得突破,那么价值不可估量!