音频编码中的声学原理（下）

摘要: 上文介绍了G711与MPEG-1的声学原理，这类编码器基于人耳感知模型，尽管适用于语音和音乐信号，但主要目的是编码出高质量的音频娱乐信号，如器乐和声乐信号。本文将介绍另一类音频编码器，它们基于发声模型，用于编码语音信号。

1、发音模型

1.1 浊音与清音

浊音产生的机理如下：

当声带（Vocal Cords）闭合时，从肺部排出的空气在声带后面形成压力，直到声带最终被分开。当空气从分开的声带中流出时，根据贝怒利定律（流体系统中，流速越快，流体产生的压力越小），空气压力下降，导致声带再次闭合。声带按准周期进行打开和关闭的循环，形成了准周期的脉冲。通过咽、口和鼻道时，这些脉冲被频率整形。

图1 声带横截面简图

清音是通过声道的某些位置形成部分收缩，强制空气以足够高的速度通过收缩点产生扰动而产生的。这会产生类似宽带噪声的声音（如单词see）。

如图2所示，浊音可以很容易通过波形的准周期特性识别，这些区域标为V；清音识别比较困难，它们很容易和背景信号混淆，这些区域标为U。

图2 语音波形，浊音（V）、清音（U）和静音（S）

浊音波形中重复波形的局部时间也被称为基音周期。如图3所示，矩形内的波形不断重复，每个矩形持续的时间就是基音周期。

图3 语音波形中估计出基音周期

1.2 声门脉冲模型

对于浊音，声门会影响产生的准周期信号的波形。

声门脉冲的建模如图4所示，通过调整脉冲长度可以适应不同的基音周期并建模不同的声门开合比率。

图4 单声门脉冲模型

对图4的脉冲模型进行傅里叶变换后的频率响应如图5所示，可以看出声门脉冲本身有低通特性，高频部分会被削弱。

图5 单声门脉冲的傅里叶变换

1.3 声道模型

对声道模型主要考虑声道面积、声波在声道中的反射和声波在声门和嘴唇的损失。

1.4 辐射模型

对嘴唇的辐射建模可以假设辐射面处于一个无限延伸的平面障碍中，如图6所示。

图6 无限平面挡板地辐射

1.5 完整模型

图7 语音发声模型

2、线性预测编码（LPC）

根据语音的发声模型，只要提供准确的语音参数，就能还原出语音波形。

图8给出了发声模型的一种简化形式。滤波器H(z)不仅包含了声道共振作用，也包含唇部辐射作用，在浊音情况下还包含了声门脉冲形状的谱效应，H(z)被称为声道系统函数。对于浊音，这个系统受一个准周期脉冲串激励，对于清音，系统受随机噪声序列激励。

图8 简化的系统语音产生模型框图

该模型需要的参数有：

1、浊音/清音分类

2、浊音的基音周期

3、增益参数G

4、H(z)的滤波器系数 { ${a_{k}, k=1,2,...,p }$ }

浊音/清音分类和基音周期检测有其他方法估计，不在这里讨论。

LPC用线性预测分析方法，通过分析语音信号得到H(z)的滤波器系数 { ${a_{k}, k=1,2,...,p }$ } 和增益参数G。由于语音信号的时变性，分析程序是取一小段语音帧（10-30ms）来估计滤波器系数（语音有短时平稳的性质）。该分析程序的目的是找出一组滤波器系数 $a_{k}$ ，使得预测误差的均方差最小。

模型输出的语音采样s[n]可以用如下的差分方程来表示：

$s[n]=\sum_{k=1}^pa_{k}s[n-k]+e[n]$

其中加权项 $\sum_{k=1}^pa_{k}s[n-k]$ 为预测信号，e[n]为预测误差：

$e[n]=s[n]-\sum_{k=1}^pa_{k}s[n-k]$

e[n]的均方预测误差（MSE）定义为：

$\varepsilon_{n} =\sum_{m}^\ e^2[m]= \sum_{m}^\ (s[m]-\sum_{k=1}^pa_{k}s[m-k] )^2$

为了求得使 $\varepsilon_{n}$ 最小的各个 $a_{k}$ 值，令 $∂\varepsilon _{n}/ ∂a _{k}=0, i = 1, 2, . . . , p$ ，求偏导后可得方程组： $\sum_{m}^\ s[m-i]s[m]=\sum_{k=1}^p a_{k}\sum_{m}^\ s[m-i]s[m-k], 1\leq i \leq p$

根据该方程组，最小均方误差可以表示为：

$\varepsilon_{n} =\sum_{m}^\ s^2[m] - \sum_{k=1}^pa_{k}\sum_{m}^ \ s[m]s[m-k]$

写成自相关形式：

$\sum_{k=1}^pa_{k}R[|i-k|]=R[i], a\leq i \leq p$

方程组可以用托普利兹（Toeplize）矩阵（它是对称的，而且任意一条对角线上的所有元素相等）表示：

对矩阵进行求解可算出滤波器系数 $a_{k}$ 。

参考文献

[1] Steven W.Smith.Digital Signal Processing[M]

[2] Lawrence R.Rabiner, Ronald W.Schafer.Theory and Applications of Digital Speech Processing[M]

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,176评论 5赞 469
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,190评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,232评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,953评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,879评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,177评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,626评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,295评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,436评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,365评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,414评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,096评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,685评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,771评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,987评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,438评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,032评论 2赞 341