今天(已经是两周前)被问到两个问题,答的很不好
1.手机屏幕亮度自动调节功能,若你是第一个要做这个功能的会怎么做?亮度调节反应是瞬间还是延迟
——应该从用户实际使用场景出发,包括极端场景。总之这个问题回答的不好,没思路,迫不及待的请教了对方
2.智能音箱工作全流程,从语音下达指令到反馈语音结果
——这个答的不够详细,不应该。回答问题似乎应该掌握个度,不需要把所有知道的东西都讲,也不能讲的太笼统,前提是得了解的足够有深度才能掌握度,至于如何判断度要把握到什么程度,目前还无法提供很好的方法,待修炼。
下面介绍智能音箱工作全流程
单轮对话,多轮对话,任务型对话和问答型对话在NLP部分会略有些差异,以下以任务型多伦对话为例介绍音箱工作的全过程
一、语音检测 VAD(voice activity detection)
检测出音频信号语音段的起始位置,分离出语音段和非语音段,这样后续只需处理语音段,减轻后续处理的计算量
方法:
1、阀值:检测音频和噪音的阀值,比较常用
2、分类器:机器学习的算法,对语音和非语音进行二分类。已经优化的分类法也比较常用
3、模型:通过全局信号判断语音段和非语音段,难以在本地部署,成本较高,应用较少
二、声学回声消除 AEC(Acoustic echo cancellation)
音箱扬声器工作时,从麦克风搜集的语音中,去除自身播放的声学信号,这是双工模式的前提。(双工指的是同时进行双向通信,也就是说音箱在播放的过程中也在进行语音检测,用户可以打断音箱说话)
三、去混响
人声的多次反射,延迟的语音叠加对语音识别是致命的障碍,去混响就是去掉反射的声音
方法:
1、去混响算法
2、对语音识别的声学模型加混响训练
四、判断是否是唤醒词
若不是唤醒词,则丢弃,若是唤醒词则继续进行语音检测和下面的操作
五、声源定位 DOA(Direction of Arrival Estimation )
作用:
1、方位灯展示,增强交互效果
2、作为波束形成的前导任务
方法:
1、基于波束扫描的声源定位
2、基于分辨率率谱估计的声源定位
3、基于到达时间差
六、降噪
提高信噪比,语音增强
方法:
1、自适应LMS
2、维纳滤波算法
继续语音识别
七、语音识别 ASR
简单理解,就是音转字。
图中的这些技术和环节串起来就是语音识别的框架和结构。
八、自然语言处理
文本 -> 预处理(分词、去停用词) -> 特征工程 -> 机器学习算法 -> 标签
九、对话管理
理解语言中的任务,提取意图和实体
比如,用户说“播放毛不易的消愁”
技能:音乐技能
任务:播放歌曲,停止播放,收藏歌曲等等
意图:播放歌曲,而不是切换歌曲,调节音量等等与放歌曲有关的其他操作
实体:歌手名(毛不易),歌曲名(消愁)
十、调取第三方控制接口
比如音乐的歌手和歌曲需要从第三方音乐软件中调取
十一、自然语言生成
识别出用户的意图和实体后,调取对应的回复内容
十二、语音合成 TTS
简单理解就是将回复的内容文字转换成语音
简单讲一下语音合成技术的引进。最早是波形拼接,从每个人的发音,你的发音是什么样子,然后把这个波形拼接,然后是HMM+GMM的合成,然后再到神经网络的参数合成,然后WaveNet合成。WaveNet合成的效果非常接近真人录音的效果,MOS是一个对语音合成的指标,产生的声码器能够做到4.2已经很好了,真人的录音效果普遍在4.5,如果做的好在4.5以上,WaveNet合成看到比较好的效果是在4.52,非常接近真人的录音效果。
目前语音合成技术已相当成熟。
应用:很多客户提到,希望有语音的定制化,为什么?对大型公司来说,如果做一个智能冰箱或者智能硬件,这个声音对于他们来说,跟品牌的logo一样,希望用户听到的声音,就知道是这个品牌的音响,或者是这个品牌的应用。不希望跟别人共享。有这种类似的需求,是很常见的,这个需求对语音合成的技术也有挑战。有的厂商可以请到一些明星到录音棚录音,录音的质量决定了合成的效果。之前做语音合成需要到录音棚录8个小时音,才能有比较好的效果,现在这个门槛不断在降低。
十三、声纹识别
以上基本是按音箱的实际工作顺序讲解,下面补充说一下声纹识别,不用声纹识别也不影响音箱的正常工作。
声纹识别可以区分声音特征,相当于更高一级的语音识别
应用一:在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,若区别不出来这个人,是不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,比如声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。
应用二:在传统的界面交互中,各类产品都强调千人千面个性化推荐,那在语音交互里面怎么做到个性化推荐呢?声纹识别。因为声纹识别可以判断人的身份,进而实现个性化推荐。
(比较粗略,细节陆续填充)