声音是因物体的振动而产生的一种物理现象。振动使物体周围的空气绕动而形成声波,声波以空气为媒介传入人的耳朵,于是人们就听到了声音。因此,从物理本质上讲,声音是一种波。用物理学的方法分析,描述声音特征的物理量有声波的振幅(amplitude)、频率(Frequency)和周期(Period)。因为频率和周期互为倒数,因此一般只用振幅和频率两个参数来描述声音。
一个现实世界的声音不是由某个频率或某几个频率的波组成的,而是由许许多多不同频率、不同振幅的正弦波叠加而成。因此一个声音中会有最低和最高频率。通俗地说,频率反映声音的高低,振幅则反映声音的大小。声音中含有的高频成分越多,音调就越高(或越尖),反之则越低;而声音的振幅越大,则声音越大,反之声音越小。
声波重复出现的时间间隔是:周期(而不是 ‘平率’ 、 ‘振幅’)
声音数字化过程:采样(采样和采样频率) — 量化(量化和量化位数) — 编码 — 存储
声卡是按 采样量化位数 来分类的
采样、量化过程所用的主要硬件是:模数转换器
要求声音的质量越高,则量化级数越高和采样频率越高
以下数字音频文件中数据量最小的是: MIDI
MIDI的音乐合成器有:FM、波表
声音包含3个要素:音调、响度和音色
声音的质量按与它所占用的频带宽度可分为4级,分别是:电话话音音质、调幅广播音质、调频广播音质、激光唱盘音质
人耳可以听到的声音频率范围大约为:20Hz - 20kHz
【音频】音频是用声音的频率界定的,指频率在20Hz~20KHz范围内的声波。音频所覆盖的声音频率是人的耳朵所能听到的声音。
【语音】声音按原始声源划分:语音、乐音、声响。语音指的是:人类为表达思想和感情而发出的声音,语音的频率一般为300Hz~3KHz。
声音的分类
按频率分
亚音频(Infrasound):0~20Hz
音频(audio):20Hz ~20kHz
超音频(Ultrasound):20kHz~1GHz
过音频(Hypersound):1GHz~1THz
按照频率分类的意义主要是为了区分人耳能听到的音频和超出人的听力范围之外的非音频声音
按原始声源划分
语音:指人类为表达思想和感情而发出的声音。
乐音:弹奏乐器时乐器发出的声音。
声响:除语音和乐音之外的所有声音,如风雨声、雷电声等自然界的声音或物体发出的声音。
区分不同声源发出的声音是为了便于针对不同类型的声音使用不同的采样频率进行数字化处理,依据它们产生的方法和特点采用不同的识别、合成和编码方法。
按存储形式划分
模拟声音:对声源发出的声音采用模拟方式进行存储,如用录音带录制的声音。
数字声音:对模拟声源采用数字化处理后,用0、1表示的声音数据流,或者是计算机合成的语音和音乐。
声音三要素
声音的特征主要由音调、响度和音色三个物理量来表征,称为声音三要素。
- 音调:判断声音高低的属性,音调高低主要依赖于声音的频率。
- 响度:判断声音强弱的属性,与声音的振幅成正比。
- 音色:也称音品,是人在听觉上区别具有同样响度和音调的两个声音之所以不同的属性。
模拟音频与数字音频
模拟音频
或称模拟声音,是指随时间连续变动的音频声音波的模拟记录形式,通常采用电磁信号对声音波形进行模拟记录。
就记录技术而言,为了模拟声音的波形,从而将声波振动转变成唱片的波状沟纹或磁带的磁向排列的技术,都可以称为模拟音频记录技术。
数字音频
数字音频并非一种新的声音,它不过是模拟音频进入计算机后的一种记录和存储形式。计算机在处理声音时,除了输出仍用波形形式外,记录、存储和传送都不能使用波形形式,即声音在进入计算机时,必须进行数字化,使时间上连续变化的波形声音变成一串0、1构成的数字序列。这种数字序列就是数字音频。
光盘、硬盘都可以作为数字音频的记录媒体。
衡量数字音频的主要指标包括:采样频率、采样精度 、声道数。
模拟音频与数字音频特点比较
(1)模拟音频是连续的波动信号,数字音频是离散的数字信号。
(2)模拟音频不便于编辑和修改,数字音频易于进行编辑和特效处理。
(3)模拟音频用磁带或唱片做记录媒体,容易磨损、发霉和变形,不利长久保存;数字音频主要用光盘存储,不易磨损,适宜长久保存。
(4)模拟音频进入计算机必须数字化为数字音频,而数字音频最终要转换为模拟音频才能输出。
音频信号的数字化
音频信号的数字化就是对时间上连续波动的声音信号进行采样和量化,对量化的结果用某种音频编码算法进行编码,所得结果就是音频信号的数字形式,也就是把声音(模拟量)按照固定时间间隔,转换成有限个数字表示的离散序列,即数字音频。
音乐合成与MIDI
一种真正用计算机产生声音的方法是声音合成技术,声音合成包括语音合成和音乐合成。
音乐合成的2种方法和其原理
- FM合成法:FM合成法通过使用调频(FM)技术,利用不同调制波频率和调制指数,对载波进行调制,得到具有不同频谱分布的波形,而这些波形恰巧再现了某些乐器的音色。
- 波形表合成法:波表合成法是迄今为止合成效果最真实的音乐合成技术。这种方法是先把音乐演奏家在各种不同乐器上演奏的不同音符以适当的采样率、量化位数录制下来,形成乐音的波形数据。然后将各种波形数据存储在ROM中。
MIDI,计算机是怎么产生声音的
MIDI(Musical Instrument Digital Interface)是乐器数字接口英文首写字母的缩写,一套有关数字合成音乐的国际标准。
依照MIDI标准的规定,在MIDI电缆上传送的是符合MIDI通信协议要求的MIDI消息。定义和产生歌曲的MIDI消息和数据存储于MIDI文件中。使用音序器可以建立MIDI文件,它可以获取MIDI消息,并把它们存储于文件中。
演奏MIDI文件时,音序器把MIDI消息从文件送到合成器,合成器把这些消息转换成特定乐器、特定音高和时长的声音。合成器用数字信号处理器(Digital Signal Processor,简称DSP)或其他芯片产生并修改波形,进而合成音乐和声音,并通过发声器和扬声器送出去。声音就这样产生了。
声音文件格式
目前,在计算机中常见的声音文件格式主要有以下几种:wav格式、voc格式、mp3格式和midi格式。
-
wav格式
wav格式的声音文件存放的是对模拟声音波形经数字化采样、量化和编码后得到的音频数据。由于是由声音波形而来,所以wav文件又称波形文件。
wav文件是windows环境中使用的标准波形声音文件格式,以.wav作为文件扩展名。Wav文件对声源类型的包容性强,只要是声音波形,不管是语音、音乐,还是各种各样的声响甚至噪音,都可以用wav格式记录并重放。 -
CDA (CD Audio) 格式
CDA是激光音频文件格式,存储时采用了音轨的形式,能准确记录声波。其数据量大,经过采样后可生成wav和mp3音频文件。 -
VOC格式
VOC格式的声音文件与wav文件同属波形音频数字文件,主要适用于DOS操作系统。 -
mp3格式
mp3格式的文件仍是波形文件,它是对已经数字化的波形声音文件采用mp3压缩编码后得到的文件。
所谓mp3压缩编码是运动图像压缩编码国际标准MPEG-1所包含的音频信号压缩编码方案的第3层。与一般声音压缩编码方案不同,mp3主要是从人类听觉心理和生理学模型出发,研究的一套压缩比高、而声音压缩品质又能保持很好的压缩编码方案, mp3现在得到了广泛的应用。 -
RealAudio格式
其最大特点是可以实时 传送音频信息,尤其在网速较慢的情况下仍然能较流畅地传输数据。RealAudio格式主要有RA、RM、RMX三种,其共同性在于随着网络带宽的不同而 改变声音的质量,在保证大多数人听到流畅声音的前提下,使带宽较宽的听众获得更好的音质。 -
midi格式
MIDI文件记录的是MIDI消息,它不是数字化后得到的波形声音数据,而是一系列指令。在MIDI文件中,包含音符、定时和多达16个通道的演奏定义。每个通道的演奏音符又包括键、通道号、音长、音量和力度等信息。显然,MIDI文件记录的是一些描述乐曲如何演奏的指令而非乐曲本身。
与波形声音文件相比,同样演奏时长的MIDI音乐文件比波形音乐文件所需的存储空间要少很多。例如,同样30分钟的立体声音乐,MIDI文件只需200KB左右的存储空间,而波形文件则要大约300MB的存储空间。MIDI格式的文件一般用mid作为文件扩展名。
MIDI文件有几个变通格式,一个以cmf为扩展名,另一个以rmi为扩展名。