人工智能发展六十年,几起几落,如今迎来又一次热潮,深度学习、计算机视觉和自然语言理解等各方面的突破,使得许多曾是天方夜谭的应用成为可能,智能人机交互就是其中之一。作为人工智能的底层技术在语音识别、图像识别的延伸与应用,全感官输入方式的人机交互方案近几年内受到了密切关注。
8.0版本中涉及到的人工智能技术其实并不新鲜,早在人工智能概念兴起的之前,就有了语音识别等一系列的技术。但是百度输入法真正实现突破,原因主要有两方面:一是技术,语音识别在过去只有很低的识别准确率,过去的不可能现在变为可能。华少现场挑战426个字速度,其中还包括一些难以识别的词句,百度输入法全部识别准确,同时还现场演示了语音速记的功能,结合百度输入法之前的版本功能,现在百度输入法具备声纹识别、轻声识别、识别准确率高、语音速记、语音指令控制的特点。二是理解用户需求,输入法围绕着基础输入的功能,拓展了“语音翻译”、“语音速记”、“AR表情包”,更贴近用户的使用习惯,丰富了用户场景。AI助力,将更难的产品需求实现,实现全感官的智能人机交互方式。
| 产品新功能介绍
发布会亮点展示,一项技术突破(DeepPeak2模型)和两项功能(语音速记+AR表情)。
百度语音技术的最新突破——DeepPeak2模型,该技术全称为“基于LSTM和CTC的上下文无关音素组合建模”,该模型突破了沿用十几年的传统模型,能够更充分地发挥神经网络模型的参数优势,大幅提升中英文、多种口音、多种风格(如朗读、聊天、轻声)混合输入的识别准确率,聊天场景下的相对正确率较行业领先水平提升20%,在语音输入位占据主要的输入方式的时代,这种新的技术能更适应用户的自然语言对话,提升了用户体验。
语音识别新功能——“语音速记”,分为单人和针对2-3人的小型会议场景,可根据声纹区分不同发言人的语音信息并整理,这将节省很多的时间。
斗图功能——“AR表情”,运用了人脸识别技术和AR技术,用户可以通过相机或相册进行人脸识别、制作表情包,还可以用自己的表情控制虚拟人物的形象。用户制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。
| 产品体验,语音速记+AR表情
高效输入:语音是全感官输入的第一步也是很重要的一步,DeepPeak2技术模型带来的是语音输入中高速、便捷的体验,还优化了口语与朗读混合和中英文混合的体验,打磨了产品的核心能力。
智能记录:在人工智能技术的支持下,语音识别的场景也开始拓展满足更多用户的需求。声纹识别、识别准确率高、快语速记录的特点能够满足小型会议、课堂记录、采访等多种需求。
表情功能:AR表情满足了占据着百度输入法70%的90后用户对于表情的拓展需求。在体验中AR表情可以浏览的与面部表情结合起来发送到社交软件。
| 产品建议
产品功能优化建议:
1.语音速记:2-3人的小型会议从一开始需要选择2人或3人,面对较复杂的用户场景如中途加入、4上以上就无法满足。速记对英文识别不是很流畅,体验较差。
2.AR表情的功能,已经的APP能够为用户制作出类似的表情包且能够提供的特效比百度输入法更多,所以丰富特效是增强AR表情包使用率的办法。
产品设计细节建议:
1.多人语音速记中,修改人物名称需要点击人物才可以,用户在探索该功能时可能会花费一定的时间,建议增加功能入口如设置选项。
2.语音文件中只有图标去确认单人/多人语音文件,建议在文件名后生产单人/多人文件标识。
产品设计方面更新建议:
这是百度输入法的8.0版本,也是全感官输入的1.0版本,通过全感官可以完成更高效的表达。所以设想的功能如下
核心输入功能:语音全称控制输入,无需触摸使用。通过简单的手势+面部表情输入可以实现一些常用且简单的交互方式。
拓展功能:与百度翻译,百度识图等深入合作,拓展更多输入方式,丰富用户场景,增强产品能力。