所谓麦克风阵列,即是将多个麦克风按照某种空间结构进行排列,根据阵列结构的空间特性,能够对不同方向采集的声音信号在时域和频域上进行联合处理。通过声音信号到达不同麦克风的时间不同以及麦克风阵列的拓扑结构即可计算出声源的位置信息,即基于麦克风阵列的声源定位。
据发射和接收信号的不同,声源定位主要可以分为主动声源定位和被动声源定位。主动声源定位由信号发出装置主动发出信号,并通过信号接收装置接收反射信号判断声源位置,如雷达和声呐等。被动声源定位只接收声源信号判断声源方位,传统单一麦克风很难有效抑制环境中噪声影响,导致定位偏差较大,因此越来越多的研究者致力于基于麦克风阵列的声源定位研究。
2基于麦克风阵列声源定位的国内外研究现状
2001年,Brandstein在文献中将基于麦克风阵列的声源定位分为如下几类:基于最大输出功率的可控波束形成方法、基于高分辨率谱的定位技术和基于信号、到达时间差的定位方法(Time Different ofArrival,TDOA)。
基于最大输出功率的可控波束形成方法
可控波束形成方法,并分为延迟求和波束形成和自适应波束形成。其原理是将麦克风接收到的信号进行滤波加权求和来形成波束,按照一定的规律对声源位置进行搜索,当麦克风达到最大输出功率时,为时搜索到的声源位置即为真实的声源方位。延迟求和波束形成虽然运算量比较小,但受环境影响大,只能通过增加麦克风数量才能达到较为理想的效果。自适应波束形成则正好相反,其运算量和信号失真较大,但可以通过少数麦克风达到较好的定位精度。
高分辨率谱估计技术的定位方法
基于高分辨率谱估计技术的定位方法通过分解协方差矩阵估计声源方位。该方法的优点是不受采样频率限制,且在一定程度下可以实现任意程度的定位。但是该方法计算复杂度较高,抗噪和抗混响性能较差,因此该方法适合在一些特定的环境下使用。
基于时间延迟估计的定位方法
基于时间延迟的定位方法分为两步:一是估计信号到达各麦克风的时间差,二是运用几何关系确定声源位置。时延估计法包括广义互相关函数(Generalized Cross Correlation,GCC)时延估计法,互功率谱相1立Cross.PowerSpectrumPhase,CSP)法,最大似然加权法(MaximumLikelihood,ML)、自适应最小均方法(1east mean square,LMS)、特征值分解法(EigenvalueDecomposition,EVD)等。该方法计算量小和鲁棒性强等特点,但抗噪和抗混响能力较差,因此有人在此基础上提出了不同的改进方法,如相位变换方法(Phase Transform,PHAT),倒频谱预滤波法等,这些方法虽然在抗噪性能上有所提高,但它们仍没有采用混响模型,无法从本质上抑制混响。Huang提出了建立在混响模型基础上的自适应特征值分解法其原理是将混响看作是冲激响应对信号的滤波过程,利用冲激响应的峰值求出时延。定位的方法主要有两种:一是利用搜索进行定位,如ML估计法;二是由声源和阵列的几何位置关系估计出声源位置信息,如球形插值法等。
基于TDOA的声源定位方法仍然存在一些不足:首先,该方法是两步定位法,在估计精度上会有所下降;其次,在低信噪比和高混响环境下,估计精度易产生畸变。再者,它不适用多个声源的同时定位;最后,该方法在一定程度上受采样频率和阵列模型的限制。