智能音箱工作全流程

今天（已经是两周前）被问到两个问题，答的很不好

1.手机屏幕亮度自动调节功能，若你是第一个要做这个功能的会怎么做？亮度调节反应是瞬间还是延迟
——应该从用户实际使用场景出发，包括极端场景。总之这个问题回答的不好，没思路，迫不及待的请教了对方

2.智能音箱工作全流程，从语音下达指令到反馈语音结果
——这个答的不够详细，不应该。回答问题似乎应该掌握个度，不需要把所有知道的东西都讲，也不能讲的太笼统，前提是得了解的足够有深度才能掌握度，至于如何判断度要把握到什么程度，目前还无法提供很好的方法，待修炼。

下面介绍智能音箱工作全流程

单轮对话，多轮对话，任务型对话和问答型对话在NLP部分会略有些差异，以下以任务型多伦对话为例介绍音箱工作的全过程

一、语音检测 VAD（voice activity detection）

检测出音频信号语音段的起始位置，分离出语音段和非语音段，这样后续只需处理语音段，减轻后续处理的计算量

方法：
1、阀值：检测音频和噪音的阀值，比较常用
2、分类器：机器学习的算法，对语音和非语音进行二分类。已经优化的分类法也比较常用
3、模型：通过全局信号判断语音段和非语音段，难以在本地部署，成本较高，应用较少

二、声学回声消除 AEC（Acoustic echo cancellation）

音箱扬声器工作时，从麦克风搜集的语音中，去除自身播放的声学信号，这是双工模式的前提。（双工指的是同时进行双向通信，也就是说音箱在播放的过程中也在进行语音检测，用户可以打断音箱说话）

三、去混响

人声的多次反射，延迟的语音叠加对语音识别是致命的障碍，去混响就是去掉反射的声音

方法：
1、去混响算法
2、对语音识别的声学模型加混响训练

四、判断是否是唤醒词

若不是唤醒词，则丢弃，若是唤醒词则继续进行语音检测和下面的操作

五、声源定位 DOA（Direction of Arrival Estimation ）

作用：
1、方位灯展示，增强交互效果
2、作为波束形成的前导任务

方法：
1、基于波束扫描的声源定位
2、基于分辨率率谱估计的声源定位
3、基于到达时间差

六、降噪

提高信噪比，语音增强

方法：
1、自适应LMS
2、维纳滤波算法

继续语音识别

七、语音识别 ASR

简单理解，就是音转字。

图中的这些技术和环节串起来就是语音识别的框架和结构。

八、自然语言处理

文本 -> 预处理（分词、去停用词） -> 特征工程 -> 机器学习算法 -> 标签

九、对话管理

理解语言中的任务，提取意图和实体

比如，用户说“播放毛不易的消愁”

技能：音乐技能

任务：播放歌曲，停止播放，收藏歌曲等等

意图：播放歌曲，而不是切换歌曲，调节音量等等与放歌曲有关的其他操作

实体：歌手名（毛不易），歌曲名（消愁）

十、调取第三方控制接口

比如音乐的歌手和歌曲需要从第三方音乐软件中调取

十一、自然语言生成

识别出用户的意图和实体后，调取对应的回复内容

十二、语音合成 TTS

简单理解就是将回复的内容文字转换成语音

简单讲一下语音合成技术的引进。最早是波形拼接，从每个人的发音，你的发音是什么样子，然后把这个波形拼接，然后是HMM+GMM的合成，然后再到神经网络的参数合成，然后WaveNet合成。WaveNet合成的效果非常接近真人录音的效果，MOS是一个对语音合成的指标，产生的声码器能够做到4.2已经很好了，真人的录音效果普遍在4.5，如果做的好在4.5以上，WaveNet合成看到比较好的效果是在4.52，非常接近真人的录音效果。

目前语音合成技术已相当成熟。

应用：很多客户提到，希望有语音的定制化，为什么？对大型公司来说，如果做一个智能冰箱或者智能硬件，这个声音对于他们来说，跟品牌的logo一样，希望用户听到的声音，就知道是这个品牌的音响，或者是这个品牌的应用。不希望跟别人共享。有这种类似的需求，是很常见的，这个需求对语音合成的技术也有挑战。有的厂商可以请到一些明星到录音棚录音，录音的质量决定了合成的效果。之前做语音合成需要到录音棚录8个小时音，才能有比较好的效果，现在这个门槛不断在降低。

十三、声纹识别

以上基本是按音箱的实际工作顺序讲解，下面补充说一下声纹识别，不用声纹识别也不影响音箱的正常工作。

声纹识别可以区分声音特征，相当于更高一级的语音识别

应用一：在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门，车上有一个小孩，突然哭闹，下一个不合适的指令，若区别不出来这个人，是不合适的。或者有一些不当的操作，可以通过声纹来做，通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门，实际应用当中遇到大的挑战点是什么？很多其他的生物识别靠人脸或指纹这类比较稳定的特征，可是声纹不稳定，比如声音哑了，怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

应用二：在传统的界面交互中，各类产品都强调千人千面个性化推荐，那在语音交互里面怎么做到个性化推荐呢？声纹识别。因为声纹识别可以判断人的身份，进而实现个性化推荐。

（比较粗略，细节陆续填充）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345