智能语音交互的痛点

其实想写这个已经很久了,一直拖着没写,特别是在老罗的锤子发布会时老罗展示了一下讯飞的语音识别,我和观众都被惊到了,不过不同的是:观众惊讶是因为身边居然有这么牛逼的黑科技,而我惊讶是因为这东西我用了将近2年了(以开发时间来算),居然还有这么多人不知道这种语音AI。

因为我从事的公司是做机器人的,所以我了解的技术可能要稍前卫点(虽然这些都都不会,毕竟只是一个开发app的),包括:室内定位、室内导航、SLAM算法、激光雷达算法、人脸检测、人脸识别、手势识别、图像识别、人体跟踪、和深度学习、语音交互在我们的机器人上都有用到。和这些个大神同事相比,我就是个渣渣。

而我在这块主要是负责整个的手机端和平板端的开发,刚好今天也将语音交互方案设计好了,语音交互是属于我这块的,比较了解这块的功能内容,所以今天主要是将语音交互的基础功能写下,在这不会写代码,只讲主体流程。

-1-语音交互主体流程

首先,我们看总体的语音交互过程。

语音交互流程

稍微解释一些吧:

总体分为3个部分:语音识别、语义分析、语音合成。

不知道什么意思?OK,解释一下:

语音识别:将连续语音快速识别为文字,给应用配上“耳朵”。

语义理解:将语音识别的文字进行智能分析得到结果,给应用配上“大脑”。

语音合成:将文字信息转化为声音信息,给应用配上“嘴巴”。

所以语音交互的总体流程是:

人说话通过麦克风采集音频文件 -->语音识别:将音频文件识别出你讲的文字内容 --> 语音分析:将识别出的文字进行分析得到你要的结果(如、问:今天需要打伞吗,他通过语音分析会告诉你今天不需要打伞因为天气预报说今天晴,气温:xx度到xx度)--> 语音合成:因为通过语义分析出来的内容是文本形式的,所以你需要通过合成将文本内容合成音频播报出来。

OK,很容易理解吧,这就是一个简单的大体的语音交互流程。

-2-痛点

看完上面你会不会觉得很简单,是的很简单,如果这是这样是简单,但是我们考虑的远远不只这些。
先看看这这个总体交互过程中会出现那些痛点。


语音交互痛点

然后我在拓展一下我们在用的时候的新痛点并加以解释为什么这些是痛点:

1:远场识别:已Siri为栗子,你如果拿着手机进行语音交互那肯定没问题,但是如果你将手机放在2米之外你能用语音控制你的手机?更不用说在机器人上点击一个按钮去交互一个流程,点击一个按钮交互一个流程,那也太特么low了对吧。这是痛点之一

2:发音要标准:作为一个标准的福蓝人,你知道有多少H跟F不分的人吗?来举个栗子,如果我问:湖南有多大,但是我HF不分啊,我说成了福蓝有多大,你觉得他会告诉你什么答案。这是痛点之二

3:环境要安静:在人多声音很嘈杂的时候你打电话给别人,别人都不一定听的懂你说什么,更何况机器;来,继续举个栗子,如果我在问“今天天气怎么样”,但是旁边一傻逼在大声的唱“你是我的小呀小苹果”,然后他有没有可能识别成“今天我的小苹果怎么样”,你猜结局会怎样?这是痛点之三。

4:不能联系对话:你肯定会说,能连续对话呀,所以的语音助手包括siri都能联系对话;OK,破费科特,证明你玩的语音助手比较多,我这里说的不能连续对话是:你必须等siri说完,你才能继续说话(除非你按按钮打断他才能继续跟他说话),你能像人一样:在人说话的同时,你不需要打断他或者等他说完在问他问题,你在他说话的同时问他问题,他听到问题之后马上停止说话然后回答你的问题吗?这是痛点之四。

5:方言:你知道中国有多少种方言吗?56个名族56个之花啊,百度了一下硬是没找到一个具体的值;来,给你说个故事:有次在养老院进行机器人调研,几十个老爷爷奶奶全清一色的长沙话,“你们要搞么子咯,噶东西哦司用咯,他听的懂我港么子不咯”,那么问题来了,你听懂说什么了吗,这特么是最入门级了好吗,但是机器人听不懂啊,还有一个问题,你知道50、60岁的大爷讲普通话是什么样的感觉吗?这是痛点之五。

以上这就是痛点,要解决这些痛点不容易,但是也是很重要的事情。特此向我国伟大的讯飞科技致敬,因为他们一直致力于这方面的研究并取得了很不错的成绩还将成果造福于人类(虽然收费真特么贵),就像老罗所表达的一样,总有一些牛逼的人默默的做着牛逼的事情。

-3- 麦克风阵列 :远距离叫醒你的设备

前面找了几个痛点其实讯飞已经帮你解决了,远场识别、环境要按钮(当然还有些细节方面的就不说了)讯飞都提供了解决方案。

随意解释一下什么事麦克风阵列吧:

大家知道我们普通的有的麦克风拾音距离很回音消除做的都很有限,随意说话远距离是录音是录不到的,还有就是如果喇叭和录音机的位置很近会造成很多的回声等问题,而讯飞提供的麦克风阵列就解决了这些问题。

远场识别的干扰因数


网络图片,侵则删

麦克风阵列原理


侵则删

下面随便录制一个小视频,方便大家理解。(简书不能上传本地视频,所以有兴趣的同学到百度云盘看下吧,也不大)
http://pan.baidu.com/s/1cFxXRw

这个视频能看出以下几点
1:不用用户用手点击按钮进行交互
2:可远距离唤醒设备(虽然你看不出距离,但是数据是5米之内)
3:稍微不是很安静的环境下是没有问题的。

所以说他还是解决了我们很大的问题,我们在项目中也应用到了他,虽然他真特么贵。

总结

ok,先写到这吧,因为我发现越往下写就越有打广告的嫌疑,如果大家感兴趣在写也不迟。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容