人类的语音信号处理过程依次如下:
- 人嘴说话
- 声电转换
- 抽样(模数转换)
- 量化(将数字信号用适当的数值表示)
- 编码(数据压缩)
- 传输(网络或者其他方式)
- 解码(数据还原)
- 反抽样(数模转换)
- 电声转换
- 人耳听声
不同物种动物的听觉频率范围有哪些?
蝙蝠:1000~120000Hz
海豚:2000~100000Hz
猫:60~65000Hz
狗:40~50000Hz
人:20~20000Hz
脉冲编码调制是什么?
- 未经过数据压缩,直接量化进行传输则被称为PCM(脉冲编码调制)。
如何计算PCM音频流的码率?
- 采样率值 × 采样大小值 × 声道数 bps = 码率
- 例如: 一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。
也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。
这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M
MP3是什么 ?
- MPEG-1 or MPEG-2 Audio Layer III 一种数字音频编码和有损压缩格式,它被设计来大幅降低音频数据量.
MP3原理是什么?
- 它舍弃脉冲编码调制(PCM)音频数据中,对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了压缩成小得多的文件大小。
AAC 又是什么?
- 高级音频编码(英语:Advanced Audio Coding,AAC),出现于1997年,基于MPEG-2的音频编码技术。
比特率是什么?
- 单位时间内的数据传输率时通常使用码流或码率,单位是kbps(千位每秒)。
低比特率的注意事项?
- 使用过低的比特率,“压缩噪声(compression artifact)”(原始录音中没有的声音)将会在回放时出现。
采样率是什么?
- 也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
实际中,人发出的声音信号为模拟信号,想要在实际中处理必须为数字信号,即采用抽样、量化、编码的处理方案。处理的第一步为抽样,即模数转换。
简单地说就是通过波形采样的方法记录1秒钟长度的声音,需要多少个数据。
根据奈魁斯特(NYQUIST)采样定理,用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。
所以,对于声音信号而言,要想对离散信号进行还原,必须将抽样频率定为40KHz以上。
实际中,一般定为44.1KHz。44.1KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。
MP3比特率参考值有哪些?
* 32 kbit/s—MW(AM)质量
* 96 kbit/s—FM质量
* 128 - 160 kbit/s –相当好的质量,有时有明显差别
* 192 kbit/s—优良质量,偶尔有差别
* 224 - 320 kbit/s—高质量
* 800 bit/s –能够分辨的语音所需最低码率(需使用专用的FS-1015 语音编解码器)
* 8 kbit/s—电话质量(使用语音编码)
* 32-500 kbit/s -- Ogg Vorbis中使用的有损音频模式
* 500 kbit/s–1 Mbit/s—无损音频,格式为FLAC,ALAC,WavPack或Monkey's Audio
* 1411.2 kbit/s—脉冲编码调制(PCM)声音格式为光盘(CD)的数字音频
* 5644.8 kbit/s—SACD使用的Direct Stream Digital格式
采样率参考值有哪些?
* 8,000 Hz - 电话所用采样率,对于人的说话已经足够
* 11,025 Hz
* 22,050 Hz - 无线电广播所用采样率
* 32,000 Hz - miniDV数码视频camcorder、DAT(LP mode)所用采样率
* 44,100 Hz - 音频CD,也常用于MPEG-1音频(VCD, SVCD, MP3)所用采样率
* 47,250 Hz - Nippon Columbia(Denon)开发的世界上第一个商用PCM录音机所用采样率
* 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
* 50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
* 50,400 Hz - 三菱X-80数字录音机所用所用采样率
* 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc(蓝光盘)音轨、和HD-DVD(高清晰度DVD)音轨所用所用采样率
* 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。
H5 audio 标签中 各浏览器对音频格式支持情况
+---------------------+-----+-----+-----+-----+
| Browser | Ogg | MP3 | AAC | Wav |
+---------------------+-----+-----+-----+-----+
| Internet Explorer 9 | No | Yes | Yes | No |
| Firefox 5 | Yes | No | No | Yes |
| Chrome 12 | Yes | Yes | Yes | Yes |
| Safari 5 | No | Yes | Yes | Yes |
| Opera 11.5 | Yes | No | No | Yes |
+---------------------+-----+-----+-----+-----+
关于延时
IP网中话音分组的端到端时延,150ms以下的时延,对于大多数应用来说是可接受的;150~400ms之间的时延,在用户预知时延状况的前提下可以接受;大于400ms的时延不可接受。
关于丢包率
丢包对VoIP语音质量的影响较大,当丢包率大于10%时,已不能接受,而在丢包率为5%时,基本可以接受。因此,要求IP承载网的丢包率小于5%。
数据参考 google 维基百科wiki