一种基于麦克风阵列的声源定位算法研究

时间：2022-10-20

小编：

一种基于麦克风阵列的声源定位算法研究

引言

基于麦克风阵列的http://wWw.LWlm.Com声源定位是声学信号处理领域中的一个重要问题。麦克风阵列声源定位技术是指利用空间分布的多路麦克风拾取声音信号，通过对麦克风的多路输出信号进行分析和处理，得到一个或多个声源的位置信息。尽管可将用于声纳和雷达系统的波束形成技术引入麦克风阵列，但由于语音信号为宽带信号，具有短时平稳特性，且所处环境还具有高混响，噪声大等特点，这些算法针对语音信号的定位精度非常低，需要对算法进行改进。一般来说，常用的声源定位算法划分为三类［4］：

一是基于波束成型的方法;

二是基于高分辨率谱估计的方法;

三是基于波达时延差(TDOA)的方法。

其中基于波束成形方法通过对麦克风阵列接收信号进行滤波、加权求和，直接控制麦克风阵列指向使波束具有最大输出功率的方向，可在目标源多于一个的条件下对多声源进行定位［5］，但存在对初值敏感的问题。另外还需要知道声源和噪声的先验知识，该方法存在计算量大,不利于实时处理等缺点。

基于高分辨率谱估计的方法在理论上可以对声源的方向进行有效估计,但由于该算法是针对窄带信号，因此若要获得较理想的精度，就要付出很大的计算量代价。此外这些算法无法处理高度相关的信号，因此混响会给算法的定位精度带来较大影响［6］。

基于时延估计的方法是利用广义互相关等时延估计算法求出信号到阵列不同麦克风的相对时延，并利用时延信息与麦克风阵列的空间位置关系估计声源位置。该方法计算量小，易于实时实现，近年来得到了高度重视。本文主要采用基于时延估计的方法进行声源定位。

1 基于TODA方法的基本原理

利用TDOA进行声源定位可分为两个部分：

首先，通过采用广义互相关方法(GCC)［7］等，并利用平滑相干变换(Smoothed Coherence Transform,SCOT)、相位变换(Phase Transform,PHAT)或最大似然(Maximum Likelihood,ML)进行加权，得出声源到两两麦克风之间的时延差。但当定位环境混响或噪声较大时，基于GCC的声源定位算法性能会急剧下降，以致无法实现精确定位。为了消除混响及噪声影响，N.Zotkin提出利用延时累加波束成型技术与SRP-PHAT相结合的声源定位算法来解决混响和噪声的影响［8］。Jacob Benesty在文献［9］中提出了利用最小熵方法进行时延估计，其实验结果表明，在同等混响或噪声条件下，其时延估计的准确度优于互相关方法，且更适于小型麦克风阵列。

其次，进行方位估计，即根据时延和麦克风阵列的几何位置估计出声源的位置。利用得到的熵值公式对空间中的最小熵值进行搜索是一个典型的全局优化问题。传统的梯度下降法主要用于单个声源进行空间搜索。但当空间中存在多个声源或噪声、混响较大时，极易陷入局部最优解。尽管离散网格搜索方法占用系统资源较大，不适宜实时定位系统，但可精确获得全局最优解，且易于计算机实现，因而得到广泛应用。本文采用离散网格方法对搜索空间进行离散划分，减小空间域搜索范围，加快搜索速度。

2 算法描述

2.1 声音信号建模

在多数语音信号处理应用中，由于语音信号具有非平稳性特征，而短时语音信号的时域分布趋于平稳，常常近似为高斯分布进行离散傅里叶变换。如果声音传播满足线性波动方程，则此时声源与麦克风间的声波传播通道可认为是线性系统［10］。在实际的小型房间环境下，由于房间墙壁的反射等原因，需要考虑混响效应。对于N元麦克风阵列系统，假定声源信号为s(t)，阵列第nth麦克风的接收信号yn(t)可表示为:

式中:αn为声音空间传播产生的衰减因子;rn(k)和vn(k)表示第nth麦克风因多径效应及噪声产生的冲击响应;“”表示卷积;xn(k)表示麦克风收集到多径声源信息。设定麦克风阵列的第一个单元为参考点；t为未知声源到参考麦克风的传播时间;τn,1为麦克风n与麦克风1的相对时延，其中τ1,1=0。

3 实验验证 3.1 实验参数设置图1 麦克风阵列结构图

对于实验环境中噪声的影响，设定环境噪声服从高斯分布，且噪声信号与语音信号不相关。因此，相关函

空间搜索方法的优劣直接影响到算法的复杂度及系统的定位时间。传统的离散网格搜索方法存在两个主要问题，一是搜索空间针对整个搜索区域进行，而对于实际的室内环境，部分高度空间出现声源的可能性几乎为零，因此需要对部分空间进行人为压缩；二是搜索网格设置过小，过为单一，导致整个搜索过程迭代次数过多，因此需要对离散网格方法进行局部改进。 3.2 仿真结果图2 两种定位算法定位精度比较

通过对两种算法的定位性能进行比较可以看到，采用离散网格搜索方法可以保证将声源估计位置的定位误差准确地判定到20 cm×20 cm×20 cm范围内，即初始网格大小。但在定位精度上，GCC-PHAT算法的平均定位误差为13.5 cm，而ME算法的平均定位误差为5.7 cm，优于GCC-PHAT算法。

4 结论

本文提出了一种基于最小熵的麦克风阵列声源定位新方法，其特点是根据语音源符合拉普拉斯分布这一特性，采用最小熵值方法实现麦克风阵列时延估计，并利用离散网格方法对声源进行空间搜索。仿真实验结果表明，在同等混响或噪声条件下，本文方法的定位优于GCC-PHAT。考虑到实际语音环境的复杂性，下一步拟简化定位算法，增强定位算法的实时性，并加强算法抗噪声和抗混响的能力，以进一步改进麦克风阵列声源的定位性能。

一种基于麦克风阵列的声源定位算法研究

小编：

相关推荐

热点推荐

相关搜索

最新排行