目前音频收集的流程
1 模拟信号 -> 数字信号 (ADC Analog to Digital Conversion)
每个点的数据都转换为 电子信号 (Binary 2~16bits)
2 采样(Sample) 范围
一般是 44100HZ
每两个采样点 间隔 大概是 1000ms / 44100Hz ~ 23us(微秒)-
为什么现在的设备不能无限放大,理论上可以1us 一个采样
- 那是因为 这会导致文件非常大
- 同时 人耳对音频信号的平均感知能力为 50us长度,或者最高20000hz精度
为什么是44100HZ 而不是 46000HZ
因为早期的CD最大容纳采样为44100HZ为什么不是20000hz 正好适配人耳
因为奈奎斯特抽样定理
:
要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。
奈奎斯特抽样定理 :要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率
。 抽样频率小于2倍频谱最高频率时,信号的频谱有混叠
。 抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。
3 采样深度精度
例如 ADC过程 将Analog转换为Digital信号 可以取不同的范围区间,例如00-01 或者 00-11
但是如何才可以准确 保留信号 并且还原的区间
- 比特深度 以CD为例,按照16bits
- 这个过程 ADC 称为
量化
- 将bits分配给每个值 称为
脉冲编码调制(Pulse code modulation)
- 但是更高质量音频信号,比特深度范围更大 例如 24~36bits
其实和 视频HDR 10bits和 SDR 8bits差不多
4 压缩
未压缩的 60s的 LR双省道 16bits 44100hz 大概是10.5MB
原始数据 10.5MB/min
MP3 -> 2.4MB/min (有损压缩 Lossy)
(和视频帧内压缩同理 去掉人耳不擅长听出来的 高频数据)
(例如去掉音量特别小的数据、音调特别高的)-
Lossless无压缩编码
- Flac
- Alac
主要通过重复数据压缩编码(熵编码、残差编码)