摘要:降噪处理是提高语音通信质量的有效手段,能够降低噪音所带来的影响。采用传统谱减法增强含噪音的语音信号之后,尽管可以较为明显地消除噪音,而且能够提升信噪比,但是效果依然有限。本文提出传统谱减算法中的噪音零均值为高斯分布的假设,对非零项估算法和调节参数法这两种典型的改进算法进行了实验分析。实验结果表明:两种典型的改进算法都能够更好地控制噪音,其中非零项估算法信噪比的提升幅度更大,尤其当信噪比处于较低水平时,有更加明显的增强效果。
关键词:谱减法; 降噪处理; 对比;
Abstract:Noise reduction is an effective means to improve the quality of voice communication, which can reduce the impact of noise. After using the traditional spectral subtraction method to enhance the speech signal with noise, although the noise can be eliminated obviously and the signal-to-noise ratio can be improved, the effect is still limited. In this paper, the hypothesis that the zero mean value of noise in traditional spectral subtraction algorithm is Gauss distribution is proposed.Two typical improved algorithms, non-zero estimation method and adjusting parameter method, are experimentally analyzed.The experimental results show that the two typical improved algorithms can better control the noise, and the non-zero estimation method has a larger increase in the signal-to-noise ratio, especially when the signal-to-noise ratio is at a low level,it has a more obvious enhancement effect.
Keyword:Spectral subtraction; noise reduction; comparison;
噪音是影响语音通信质量的一大因素,尤其在使用语音处理系统时,过多的噪音会降低系统性能[1].而降噪处理则是为了提升语音的质量,尽最大程度消除噪音所带来的影响,使语音的可辨度有明显提高。降噪处理常用的算法主要有两种:一是以发声模型为基础的算法,二是以估算语音幅度谱为基础的算法[2].近些年来,也有少数新算法出现,例如小波变换算法等。以估算语音幅度谱为基础的降噪处理算法,一直以来都是研究热点,其中谱减法是该算法里面使用最为广泛的一种,优势在于运算量不大,计算时间很短[3].但谱减法也有部分问题存在,会对降噪处理效果造成较大的影响。相关学者对降噪处理算法改进研究成果大量出现,例如谱减算法中的调节参数法、非零项估算法[4,5,6].本文以这两种改进算法为对比,得出降噪处理的最佳方式。
1 传统谱减法原理分析
传统谱减法的实现前提需要做一个假设,即时间短的平稳语音信号和加性噪音是独立的,两者互不干涉。在此情况下,将带有噪音的语音信号量减去噪音信号量,得出趋向于纯净的语音频谱。
设s(t)是纯净的语音信号量,n(t)是噪音信号量,y(t)是带有噪音的语音信号量,关系式如下:
对以上三种信号进行傅里叶变换,分别用S(w)表示s(t),N(w)表示n(t),Y(w)表示y(t),则得出下式:Y(w)=S(w)+N(w) (2)
由于s(t)和n(t)都是独立的,所以S(w)和N(w)也是独立的,而且N(w)服从零均值高斯分布,因此E{Re[S(w)N*(w)]}=0,下式成立:E(|Y(w)|2)=E(|S(w)|2)+E(|N(w)|2 (5)
对于单帧短时平稳,下式成立:|Y(w)|2=|S(w)|2+|N(w)|2 (6)
因为发声前后的时间段内,平稳噪音功率谱一般不会有变化,噪音功率谱|N(w)|2可利用发声之前的寂静时间段进行估算,因此有:|S(w)|2=|Y(w)|2-|N(w)|2 (7)
原始语音估算值用下式计算:|S(w)|=[|Y(w)|2-|N(w)|2]1/2 (8)
上式采用分帧计算,若有负值出现,可用0替换。由于分帧会有截断效应产生,为避免这种情况,可以对y进行加窗处理。人耳一般很难感触到相位的变化,用原来带噪音的语音信号相位取代估算出来的语音信号相位,由此得出降噪处理之后的语音信号。传统谱减法基本原理如图1所示。
2 两种改进的谱减降噪算法
图1 传统谱减法基本原理图
Fig.1 The basic principle of the traditional spectral subtraction
在实际应用中,传统谱减法使用通常会有一定的改进,使算法更加贴近实际需求。以下是两种较为典型的改进算法:非零项估算法、调节参数法。
2.1 非零项估算法
在式(4)中,只有假设噪音是零均值的高斯分布,E{Re[S(w)N*(w)]}=0才会成立。但实际上噪音通常不会这样分布,有的并不是零均值,有的也不是高斯分布。出于这种考虑,非零项估算法成为一种不忽略非零项的典型算法,计算步骤如下:Re[S(w)N*(w)]=|S(w)||N(w)|cos(θS-θN)(9)
式中S(w)=|S(w)|exp(jθS),N(w)=|N(w)|exp(jθN),因此下式成立:
若|S(w)|、|N(w)|与cos(θS-θN)互相独立,以下等式成立:E{Re[S(w)N*(w)]}=E(|S(w)|N(w)|)E[cos(θS-θN)](11)
因为E(X2)≥[E(X)]2成立,所以下面公式也成立:E(|S(w)|)=α[E(|S(w)|2)]1/2和E(|N(w)|)=β[E(|N(w)|2)]1/2.
在上式中,α≥0,β≤1,所以式(11)可以用下式表示:
在上式中,设γ=αβE[cos(θS-θN)],所以0≤γ≤1,则式(4)可以用下式表示:
对于单帧的短时间平稳,有:|Y(w)|2=|S(w)|2+|N(w)|2+2l[|S(w)|2|N(w)|2]1/2 (14)
根据上式得出:|S(w)|2=|Y(w)|2-(1-2l2)|N(w)|2-2l[|Y(w)|2|N(w)|2-(1-2l2)|N(w)|4]1/2 (15)
首先利用发声之前的寂静时间段对噪音n(t)的功率谱|N(w)|2进行估计,然后通过原来带噪音的语音信号y(t)求出功率谱|Y(w)|2,l可以取[0,1]间的某一个值,按照式(15)得到|S(w)|2,进而求出原始的语音信号估算值,最终得到噪音降低之后的信号。
2.2 调节参数法
调节参数法是一种典型的谱减降噪改进算法,公式如下:|S(w)|=[|Y(w)|α-β|N(w)|α]1/α (16)
该方法与传统谱减法相比,主要是多了两个参数:α与β。α作为一个功率修正系数,在增强之后可以有效提升信噪比,但也会加大语音信号失真程度。通过对不同α值的测试,当初始信号的信噪比处在一个较低层次时,α能够较大程度影响去噪效果,但是在原始信号的信噪比提高时,则会降低α影响去噪的效果。在通常情况下,α的值可以取2,这样能使计算变得更加简便。β则是噪音修正系数,因为噪音频谱通常是高斯分布,随机性和变化性较强,当噪音分量较高时,残留分量会变得很大,有尖峰随机出现在频谱上,极大地影响到人的听觉。为使该问题得到解决,可以在语量较高的领域,使β>1,利用人为方式降低部分噪音分量,让语音频谱变得更突出,但语音失真性也会增强。所以要按照实验结果对参数值选取进行确定,可根据即时语音量进行动态确定。
3 实验与分析
3.1 非零项估算法实验
实验对语音增强前和增强后的信噪比进行计算,验证非零项估算法的有效性。在实验中,正常语音和噪音的信号采样标准用8 k Hz,量化则用16 bit,在安静环境下录制纯净的语音材料,噪音则选取NOISEX数据库内的战斗机噪音,根据一定比例把正常语音和噪音信号进行线性相加,形成五种各不相同的信噪比,分别是:-15 dB、-10 dB、-5 dB、0 dB、5 dB.通过汉明窗分帧含噪音的语音,每一个帧的采样点为512个,帧与帧之间的采样点叠加成128个。在不同信噪比环境下,分别使用传统谱减法和非零项估算法增强语音,l取0.4与0.7,实验结果见表1.
表1 非零项估算法实验的结果统计
Table 1 Statistical results of non-zero estimation experiments
从表1结果可以看出,当使用传统谱减法对语音进行增强,信噪比有一定幅度提高,并削弱了部分噪音。采用非零项估算法对语音进行增强,相对于传统法来说,则能够更好地控制噪音,信噪比的提升幅度更大,尤其当信噪比处于较低水平时,有更加明显的增强效果。当l取0.4时,语音增强效果要比0.7好。因此l这一参数对语音增强效果的改善极为重要,可以按照实验结果进行确定。
3.2 调节参数法实验
为验证调节参数法的有效性能,本实验使用与非零项估算法实验相同的纯净语音,在该语音中叠加高斯白噪音,得出的结果见图2.在该结果中,α取值2,β取值1.5,横轴代表采样点的数目,纵轴代表归一化的幅度。根据实验结果,调节参数法对噪音的控制效果最好。
图2 调节参数法实验结果的波形图
Fig.2 Waveform charts of experimental results by adjusting parameters method
4 结论
用传统谱减法增强含噪音的语音信号之后,尽管可以消除一定程度的噪音,而且能够提升信噪比,但是效果依然有限。本文提出一个假设,即传统谱减算法中的噪音零均值为高斯分布,对两种典型的改进算法进行了实验研究,分别是非零项估算法和调节参数法。根据实验结果,非零项估算法能够更好地控制噪音,信噪比的提升幅度更大,尤其当信噪比处于较低水平时,有更加明显的增强效果。调节参数法也能很好地控制噪音,但是α对于效果影响并非很大,且取2值的时候,有较为明显的物理意义,因此相关研究基本将α值定为2.
参考文献
[1] Kang TG, Shin JW, Kim NS. DNN-based monaural speech enhancement with temporal and spectral variations equalization[J]. Digital Signal Processing, 2018,74(8):102-110
[2] Bhowmick A, Chandra M. Speech enhancement using voiced speech probability based wavelet decomposition[J].Computers and Electrical Engineering, 2017,62(6):706-718
[3] Wood SUN, Rouat J, Dupont S, et al. Blind Speech Separation and Enhancement With GCC-NMF[J]. IEEE/ACM transactions on audio, speech, and language processing, 2017,25(4):745-755
[4] Mossa E. Security enhancement for AES encrypted speech in communications[J]. Journal of speech technology,2017,20(1):163-169
[5] Upadhyay A, Pachori RB. Speech enhancement based on m EMD-VMD method[J]. Electronics Letters, 2017,53(7):502-504
[6] Kandagatla R, Subbaiah PV. Speech enhancement using MMSE estimation under phase uncertainty[J]. Journal of speech technology, 2017,20(2):373-385