锤子发布会后,老罗在发布会上提到,讯飞的语音输入识别率已经达到了97%,会场的大部分观众对此表示一脸懵逼,场外的我当然也是其中一员。而离我最近的”新玩法“非这个语音输入无疑了,当时马上就在”搜狗输入法”上玩了几个回合。
在说话清晰的情况下,基本能获得说话的文字内容,而且过程中会一直同步输入文字,反馈速度快。久旱逢甘露,以前一直用手机键盘输入,短暂的新鲜感让我迫不及待向几个密友介绍这种输入方式。
在移动设的备聊天场景中,我常用文字与表情与他人沟通;特殊场景中,例如不方便键盘输入、需要输入大量内容,会考虑用语音信息沟通。
但在多内容的语音信息传输过程中,也存在着一些的情况。之前曾连续发送多个几十秒时长的语音信息。在录音过程中,意识到自己嘴边的表达有误,所以讲了30多秒的语音要取消发送。这个时候要重复前面30秒的内容,然后重新录制。如果不愿重新录制,则需要再添加修改的语句,如:“刚才上一句说错了,不是……,而是……”,原本就携带了大量信息,如果还穿插着不同的修改注释,信息传达的准确率很可能会降低。
而第二天我也被对方当面吐槽了一番。语音信息内容多时间长,一没记住中间的哪部分就要重听;语音内容时长差距不明显的时候,重听会点选错;语速快有口音的部分重听几次都听不清。真是省了说话者的时间,浪费了收听者的时间。
对语音输入识别率以及语音信息传输缺点有一定了解后,我想在以后需要大量文字输入的情景里,语音输入会成为我的另一个选择。
前两天晚上,需要和朋友分享一些事情,但由于时间较晚,她表示不方便听语音,我立马就决定了使用语音输入。在这次大量信息的语音输入过程中,结合之前比较浅层次的使用,我归纳了使用过程中出现的一些问题。
1)专有名词、中英混说造成的语音识别障碍。某些不著名的专有名词识别率低,例如朋友的名字、地方特色词等,这些词语难以识别的同时,甚至会影响后面连接词语的识别。
2)标点符号识别错误。语音输入在句号和逗号的判断添加上,基本能满足我们的需要。它可以根据说话的停顿节奏,句子长度自动添加。语音输入过程中带有“什么”、“怎么”、“如何”、“谁”、“哪里”、“几”、“吗”之类的疑问词,那么这句话很有可能会在句末被加上问号,但是我们有些情况下是不需要的,例如:
• 我不知道他怎么会在这里。
• 也不看是谁的东西。
• 他们想知道东西找着了没有。
• 他问你几岁了。
• 我不明白他要那些东西干嘛。
以上几个句子中,疑问句在句中充当了宾语的成分,但主句是陈述句,所以句末要加上句号。在搜狗输入法的语音输入识别中,这几个句子在句末都被加上了问号。问号存在识别错误添加的问题,而顿号、冒号、书名号之类的直接是不能识别添加。
3)停顿造成的断句错误。说话过程中,时不时会有停顿,例如干咳、思考、被影响,这些停顿可能会导致句尾出现标点,造成断句失当。
4)说话陋习造成的句子逻辑混乱。我自己说话时有一些陋习,像介绍流程、经历之类的事情时,经常会不自觉地就连着说很多“然后”,这样的陋习在说话的时候很可能是意识不到的,但转为文字后,就需要把它们删除或改写。除了“然后”,还有人会比较喜欢说“就是说”、“接着”、“接下来呢”,这种带有连接事物先后顺序的词语。除此之外,还有一些像说话语序混乱、无意识重复某些词语之类的陋习。
5)担心语气词的情绪被错误解读。用文字输入的时候,我通常较少使用语气词,但说话时却不可避免出现,例如:“呢”、“喽”、“呀”、“嘛”等。人在说话时,会沉浸在自己语调、情绪的影响里,伴随着情绪,语气词自然而然地脱口而出。但当面对语音输入的结果时,说话时的情绪已经消失了,那些带有“呢”、“噢”语气词的句子 ,却难以重现说话时的情绪。这些不恰当语气词的存在,可能一不小心就改变了你的语言风格,给你和上司的对话中带来一些小灾难。
我们对语音输入结果不是十分满意的原因,除了技术层面的问题,便是说话内容不能在从口语到书面语的情景转换中做到自适应。
在社交聊天场景中,把交流的内容称作书面语可能有失妥当。但在以往键盘输入的过程中,我们大脑使用了书面语形成的方法,所以内容会更偏向于书面语的模式。而正是这部分书面语化的内容,跟语音输入的口语化内容存在的差别,造成了我们对语音输入结果的不适应。
组成的书面语和口语的材料来自同一个库,但由于两者对材料的筛选、采纳使用了不同的规则,所以组成口语和书面语的材料也是不尽相同的。词汇上,口语词汇简单明了、通俗冗杂,书面语词汇则富有表现力,规范正式;句法上,口语多使用简单句、短句,结构简单直接;书面语则长句,复合句更多,语句结构复杂。
口语形成时间短,且单向不可逆,一旦通过声音发出便是输出的结果,即使后来进行修改更正也不能在时空上对之前说过的话造成改变。而书面语形成是一个可反复回归的过程,在文字输出过程中,可以不断检阅修正,直至最后输出书写结果。
在口语和书面语系统中,如果在对方的环境里,使用自己的语言规则,便会带来一种强烈的不适感。如果是在口语环境中使用书面语,就好像穿着正式的礼服出现在了运动场。在每个人都在肆意奔跑的场景里,你却挺着腰杆,迈着谨慎的步伐,维持着礼貌的微笑,担心衬不起今天穿着的那套礼服。反之,则是在宴会中穿着运动服奔跑,随意挥洒的汗水、唐突的冲撞、运动鞋与地板的摩擦声与会场的悠扬乐声自然是格格不入。
这两种做法并不是说不可行,只是那种情景下带来的不适感让大部分人都望而却步了。所以我们在语音输入过程中,始终会对某些口语输入的句子感到不适,因为输入后的结果变成了书面语,我们会不自觉地用书面语系统去检阅这些结果。
与此同时,除了语言内容外,语言外因素也对内容传达造成了影响。语言外因素(无法通过语言传递的信息,例如:语音、语调、视线、表情、手势等)对信息传达也起到了重要的作用。在书面语中,只有语言内容是有用的;而在口语表达中,语言内容和部分语言外因素共同起到了作用。在语音输入情景中,我们在说话过程会自动带入自己的情绪,这个过程有一部分语言外因素协助我们传达自己的情绪,例如,利用停顿强调重要性、高声调表示愤怒、语速快表示着急。但通过语音输入被转换成文字后,语言外因素携带的情绪便被消磨得差不多了,最终还是需要对这些经过机器输出的内容进行润色修改。
既然语音输入存在现在的一些问题,特别是在需要相对大量文字输入的情境中,我们就更需要找到一些方法去更高效地修正语音输入的结果,而不是在那个小小的输入框,用大拇指经过数不清次的点触、拖移、滑动,最后获得的结果还是不如所愿。
在锤子发布会提及科大讯飞语音输入的同时,Big Bang 和 One Step 也亮眼无比。经过大拇指一贴,Big Bang 就会把按住的文字“炸”开,用户就可以对文字进行搜索、分享和复制的动作。Big Bang 带来交互上的新体验,解决了人们在信息编辑上的痛点。锤子公司想通过这样的方式,让手持设备在信息处理和识别方面上拥有比电脑还高的效率。这样的 Big Bang 自然可以对语音输入的文字结果进行一定程度修正。
在众多应用推荐平台上中,留意到了一款叫做的 Clipboard Plus 的应用。它的界面融合了Big Bang 和 One Step 的框架。通过复制动作,再点击悬浮球即可进入分词操作界面。
通过对大段文字进行分词处理,再筛选需要的内容,最后再发送修改后的结果。Clipboard Plus 创造了一个独立编辑修改文字的环境,充分利用屏幕空间,分词逻辑,让用户在修改大段文字上减少了原本在狭小编辑区域内的压迫感,顿时感觉豁然开朗。同时,它的一些简易操作,例如点击“全选”可以进行反选,在删除少量错误词语上可以说相当方便。修改后的语段可以通过点选分享栏中的应用,直接进行输入、搜索、分享等动作。
如果你想体验一下这种不同于以往的文字编辑方式,可以在应用商店通过搜索“Clipboard Plus”,免费下载。
不得不说这类型的软件为语音输入结果的修正提供了不少方便,但针对实际使用场景,可能还需要增加信息置换、插入、快捷选择等的功能。但当真有了这些功能时,可能会变成一个臃肿的拥有分词功能的文字处理应用软件。在未来,相信开发者、设计师们还会为此创造出更多优秀的产品,去处理好信息的编辑处理与识别利用的问题。与此同时,手持设备的语音输入也能因此而获得更好的发展空间。