提高语音输入信息的准确率——请再突破 1%!

锤子发布会后,老罗在发布会上提到,讯飞的语音输入识别率已经达到了97%,会场的大部分观众对此表示一脸懵逼,场外的我当然也是其中一员。而离我最近的”新玩法“非这个语音输入无疑了,当时马上就在”搜狗输入法”上玩了几个回合。

图1 “搜狗输入法”语音输入按钮     图2 麦克风以水波涟漪扩散,提示正在收音     图3 向上滑动选择语种

在说话清晰的情况下,基本能获得说话的文字内容,而且过程中会一直同步输入文字,反馈速度快。久旱逢甘露,以前一直用手机键盘输入,短暂的新鲜感让我迫不及待向几个密友介绍这种输入方式。

图4 一教会他们用语音输入,就这样伤害我 T-T

在移动设的备聊天场景中,我常用文字与表情与他人沟通;特殊场景中,例如不方便键盘输入、需要输入大量内容,会考虑用语音信息沟通。

但在多内容的语音信息传输过程中,也存在着一些的情况。之前曾连续发送多个几十秒时长的语音信息。在录音过程中,意识到自己嘴边的表达有误,所以讲了30多秒的语音要取消发送。这个时候要重复前面30秒的内容,然后重新录制。如果不愿重新录制,则需要再添加修改的语句,如:“刚才上一句说错了,不是……,而是……”,原本就携带了大量信息,如果还穿插着不同的修改注释,信息传达的准确率很可能会降低。

而第二天我也被对方当面吐槽了一番。语音信息内容多时间长,一没记住中间的哪部分就要重听;语音内容时长差距不明显的时候,重听会点选错;语速快有口音的部分重听几次都听不清。真是省了说话者的时间,浪费了收听者的时间。

图5 生活中的语音轰炸狂人

对语音输入识别率以及语音信息传输缺点有一定了解后,我想在以后需要大量文字输入的情景里,语音输入会成为我的另一个选择。

前两天晚上,需要和朋友分享一些事情,但由于时间较晚,她表示不方便听语音,我立马就决定了使用语音输入。在这次大量信息的语音输入过程中,结合之前比较浅层次的使用,我归纳了使用过程中出现的一些问题。

1)专有名词、中英混说造成的语音识别障碍。某些不著名的专有名词识别率低,例如朋友的名字、地方特色词等,这些词语难以识别的同时,甚至会影响后面连接词语的识别。

2)标点符号识别错误。语音输入在句号和逗号的判断添加上,基本能满足我们的需要。它可以根据说话的停顿节奏,句子长度自动添加。语音输入过程中带有“什么”、“怎么”、“如何”、“谁”、“哪里”、“几”、“吗”之类的疑问词,那么这句话很有可能会在句末被加上问号,但是我们有些情况下是不需要的,例如:

 • 我不知道他怎么会在这里。

 • 也不看是谁的东西。

 • 他们想知道东西找着了没有。

 • 他问你几岁了。

 • 我不明白他要那些东西干嘛。

以上几个句子中,疑问句在句中充当了宾语的成分,但主句是陈述句,所以句末要加上句号。在搜狗输入法的语音输入识别中,这几个句子在句末都被加上了问号。问号存在识别错误添加的问题,而顿号、冒号、书名号之类的直接是不能识别添加。

3)停顿造成的断句错误。说话过程中,时不时会有停顿,例如干咳、思考、被影响,这些停顿可能会导致句尾出现标点,造成断句失当。

4)说话陋习造成的句子逻辑混乱。我自己说话时有一些陋习,像介绍流程、经历之类的事情时,经常会不自觉地就连着说很多“然后”,这样的陋习在说话的时候很可能是意识不到的,但转为文字后,就需要把它们删除或改写。除了“然后”,还有人会比较喜欢说“就是说”、“接着”、“接下来呢”,这种带有连接事物先后顺序的词语。除此之外,还有一些像说话语序混乱、无意识重复某些词语之类的陋习。

图6 说话陋习

5)担心语气词的情绪被错误解读。用文字输入的时候,我通常较少使用语气词,但说话时却不可避免出现,例如:“呢”、“喽”、“呀”、“嘛”等。人在说话时,会沉浸在自己语调、情绪的影响里,伴随着情绪,语气词自然而然地脱口而出。但当面对语音输入的结果时,说话时的情绪已经消失了,那些带有“呢”、“噢”语气词的句子 ,却难以重现说话时的情绪。这些不恰当语气词的存在,可能一不小心就改变了你的语言风格,给你和上司的对话中带来一些小灾难。

图7 不合适的语气词

我们对语音输入结果不是十分满意的原因,除了技术层面的问题,便是说话内容不能在从口语到书面语的情景转换中做到自适应。

在社交聊天场景中,把交流的内容称作书面语可能有失妥当。但在以往键盘输入的过程中,我们大脑使用了书面语形成的方法,所以内容会更偏向于书面语的模式。而正是这部分书面语化的内容,跟语音输入的口语化内容存在的差别,造成了我们对语音输入结果的不适应。

组成的书面语和口语的材料来自同一个库,但由于两者对材料的筛选、采纳使用了不同的规则,所以组成口语和书面语的材料也是不尽相同的。词汇上,口语词汇简单明了、通俗冗杂,书面语词汇则富有表现力,规范正式;句法上,口语多使用简单句、短句,结构简单直接;书面语则长句,复合句更多,语句结构复杂。

口语形成时间短,且单向不可逆,一旦通过声音发出便是输出的结果,即使后来进行修改更正也不能在时空上对之前说过的话造成改变。而书面语形成是一个可反复回归的过程,在文字输出过程中,可以不断检阅修正,直至最后输出书写结果。

图8 口语的形成过程
图9 书面语的形成过程

在口语和书面语系统中,如果在对方的环境里,使用自己的语言规则,便会带来一种强烈的不适感。如果是在口语环境中使用书面语,就好像穿着正式的礼服出现在了运动场。在每个人都在肆意奔跑的场景里,你却挺着腰杆,迈着谨慎的步伐,维持着礼貌的微笑,担心衬不起今天穿着的那套礼服。反之,则是在宴会中穿着运动服奔跑,随意挥洒的汗水、唐突的冲撞、运动鞋与地板的摩擦声与会场的悠扬乐声自然是格格不入。

这两种做法并不是说不可行,只是那种情景下带来的不适感让大部分人都望而却步了。所以我们在语音输入过程中,始终会对某些口语输入的句子感到不适,因为输入后的结果变成了书面语,我们会不自觉地用书面语系统去检阅这些结果。

与此同时,除了语言内容外,语言外因素也对内容传达造成了影响。语言外因素(无法通过语言传递的信息,例如:语音、语调、视线、表情、手势等)对信息传达也起到了重要的作用。在书面语中,只有语言内容是有用的;而在口语表达中,语言内容和部分语言外因素共同起到了作用。在语音输入情景中,我们在说话过程会自动带入自己的情绪,这个过程有一部分语言外因素协助我们传达自己的情绪,例如,利用停顿强调重要性、高声调表示愤怒、语速快表示着急。但通过语音输入被转换成文字后,语言外因素携带的情绪便被消磨得差不多了,最终还是需要对这些经过机器输出的内容进行润色修改。

既然语音输入存在现在的一些问题,特别是在需要相对大量文字输入的情境中,我们就更需要找到一些方法去更高效地修正语音输入的结果,而不是在那个小小的输入框,用大拇指经过数不清次的点触、拖移、滑动,最后获得的结果还是不如所愿。

图10 微信文字输入修正的例子

在锤子发布会提及科大讯飞语音输入的同时,Big Bang 和 One Step 也亮眼无比。经过大拇指一贴,Big Bang 就会把按住的文字“炸”开,用户就可以对文字进行搜索、分享和复制的动作。Big Bang 带来交互上的新体验,解决了人们在信息编辑上的痛点。锤子公司想通过这样的方式,让手持设备在信息处理和识别方面上拥有比电脑还高的效率。这样的 Big Bang 自然可以对语音输入的文字结果进行一定程度修正。

在众多应用推荐平台上中,留意到了一款叫做的 Clipboard Plus 的应用。它的界面融合了Big Bang 和 One Step 的框架。通过复制动作,再点击悬浮球即可进入分词操作界面。

图11 Clipboard Plus 操作演示

通过对大段文字进行分词处理,再筛选需要的内容,最后再发送修改后的结果。Clipboard Plus 创造了一个独立编辑修改文字的环境,充分利用屏幕空间,分词逻辑,让用户在修改大段文字上减少了原本在狭小编辑区域内的压迫感,顿时感觉豁然开朗。同时,它的一些简易操作,例如点击“全选”可以进行反选,在删除少量错误词语上可以说相当方便。修改后的语段可以通过点选分享栏中的应用,直接进行输入、搜索、分享等动作。

如果你想体验一下这种不同于以往的文字编辑方式,可以在应用商店通过搜索“Clipboard Plus”,免费下载。

不得不说这类型的软件为语音输入结果的修正提供了不少方便,但针对实际使用场景,可能还需要增加信息置换、插入、快捷选择等的功能。但当真有了这些功能时,可能会变成一个臃肿的拥有分词功能的文字处理应用软件。在未来,相信开发者、设计师们还会为此创造出更多优秀的产品,去处理好信息的编辑处理与识别利用的问题。与此同时,手持设备的语音输入也能因此而获得更好的发展空间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容