“嘿，Siri”是怎么实现的？

姓名：任思远

学号：17021210990

转载自：https://mp.weixin.qq.com/s/3pqZxEV-kRBKcWwoiqkSng

【嵌牛导读】：拥有iPhone的朋友一定对Siri很熟悉，他是如何实现的？iPhone公司在研发过程中又遇到过什么挑战？在这篇文章中让我们来一一了解。

【嵌牛鼻子】：Siri、机器学习、语音识别

【嵌牛提问】：“嘿，Siri”是怎么实现的？

【嵌牛正文】：

“嘿，Siri。你是怎么做到这么聪明的？” “我只是凡事都尽力而为”

这并不是一句玩笑话，对于 Siri 来说，它的确每天在尽力提供着服务。

两天前，苹果在公司机器学习博客上发布了最新的一篇文章，详细解释了“嘿，Siri”这个随时唤醒智能助手的功能是如何实现的。

2014 年 6 月，苹果带来了 iOS 8 系统，新增了 “嘿，Siri” 功能，可以免按键来唤醒语音助手 Siri 。一句简单的「嘿 Siri」就可以激活，让 Siri 为你设定闹钟，查看日历。

在最新的文章中，苹果详细地介绍了如何让硬件芯片、底层软件还有网络服务相结合，在最新的 iPhone，iPad，还有 Apple Watch 上实现“嘿，Siri”这个功能。

为了让用户可以随时唤醒 Siri，苹果在运动协处理器中集成了非常小的语音识别装置，这个装置一直保持运行，并等待用户说出“嘿 Siri”。当识别到这两个单词后，Siri 会将后面的语音处理为命令或查询。

iPhone 或 Apple Watch 上的麦克风会以每秒 1.6 万次的速度将你的声音转化为一连串的瞬时波形样本。每次将大约 0.2 秒的音频输入到声学模型，神经网络会将这些声学模型转换为概率分布，并使用时间集成来计算这个声音是「嘿 Siri」的可信度。

苹果已经设定了信度分数的几个敏感阈值，如果分数足够高，Siri 就被激活，并开始处理用户的命令或查询。

但并不是说可信度的分值低于阈值的话，Siri 就彻底不理你。

如果分数超过了最低阈值，但没有达到激活的阈值，譬如你的声音有口音或者不清楚，这时设备会进入「敏感模式」，并持续几分钟。这样当用户再次重复「嘿 Siri」时，可以更快地激活。

虽然变得更敏感，但是为了为了减少误识别或者意外激活 Siri 的情况，我们在进行初始化「嘿 Siri」的时候，会被要求连续说五次「嘿 Siri」。

这样在初始化完成后，用户的声音会转化成波形并送达到 Siri 的服务器里。在使用过程中，苹果会记录不同环境中远近激活“嘿 Siri”的情况，比如在厨房中、车中和卧室中等不同距离的情况。

与此同时，苹果还制定了一些与语音相关的规范，发音接近 Siri 的「Syria」(叙利亚) 和「serious」(严肃的) 等词语将被放在上下文中进行识别。

持续等候唤醒会不会增加耗电情况和占用内存，影响手机正常使用？苹果也做出了解释。

为了避免主处理器一直处于检测触发词的状态，iPhone 中的 AOP（一种小且低能耗的处理器）会使用其一小部分处理能力来运行一个探测器和一个小版本的声学模型。当信度分数超过最低阈值时，AOP 会「提醒」主处理器进行下一步操作。

而电池更小的 Apple Watch 在整合 Siri 时需要考虑的挑战更多。为了不影响手表的续航表现，Apple Watch 的「嘿 Siri」检测器只有在手表启动时才会运行，它可以检测到手腕抬起的手势。只有用户做出这样的手势， Siri 才可能被激活。

当然 “嘿，Siri”的实现还有一些复杂的算法介绍，如果有兴趣，可以在这里看到详细的内容。

2012 年 4 月，Google 推出了看上去非常科幻的 Google Project Glass 眼镜。它可以把信息显示在眼镜右上角的小屏幕上。用户可以对着眼镜的麦克风说 “OK，Glass”，一个菜单就会自动出现。

这是语音唤醒功能第一次的公开展示。

2013 年，收购了摩托罗拉的 Google 推出了 Moto X ，这款安卓手机一个亮点就是可以 24 小时全程等候唤醒，提供 Google Now 服务。

Google 打造了 2 颗低功耗 SoC 芯片来实现这个功能，专门等待着用户随时输入语音命令。

当时 Google 为了功耗考虑，并没有采用语言模型、数据分析等方法，使用最简单直接的分类方法在用户输入语音流中寻找“OK Google”这几个字。

随着智能助手在各种软硬件结合上带来的功能提升，语音识别技术也在快速发展，准确性已经不是语音助手追求的目标，更加流畅和拟人成为目前研究的重点。

新版的 Siri 在 iOS 11 获得提升。Siri 的语音仍然是用语音合成技术来做，但在人工智能算法、语音内容上做了改进。

根据 Siri 团队的说法，苹果公司从数百位候选人中筛出了一位“新的、有语音天赋的女性”，让她读 10-20 小时的书、笑话、导航和问答等文本内容，并录制下来。Siri 团队希望新的语音内容可以帮助改善 Siri 语音的流畅度。

微软在今年 8 月推出了第五代微软小冰，启用全新的“生成模型”来生成对话。在这个模式下，小冰说的每一句话都有可能是完全生成的。在表达方面，没有人工干预的情况下小冰还可以准确识别“生长”和“伸长”中多音字的正确读法。

最后编辑于：2017.12.11 08:27:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

“嘿，Siri”是怎么实现的？

推荐阅读更多精彩内容