您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页基于短时谱分析的语音增强改进算法

基于短时谱分析的语音增强改进算法

来源:宝玛科技网
语音技术 ⑨6@@可@@响响⑨0⑨⑨ 文章编号:1002—8684{2011)09—0042—05 基于短时谱分析的语音增强改进算法 ・实用技术・ 叶利剑 ,黄松华 ,邱小军 (1.瑞声声学科技研发(南京)有限公司,江苏南京210093;2.南京大学声学研究所,江苏南京210093) 【摘要】介绍了基本的语音增强短时谱分析算法的原理。基于经典的谱减算法进行改进,引入了先验信噪比估 计,以及时间回归平均法对噪声进行更新,以及一系列后处理改进方法,提高了降噪效果。在保持语音可懂度的基 础上,增强了噪声衰减量。主、客观实验结果表明,针对汽车噪声一类的平稳噪声,算法效果出色;而对于街道、人 声一类非稳态噪声,该算法性能优于目前常见算法。 【关键词】谱减法;先验信噪比;时间回归平均法 【中图分类号】TN912 【文献标识码】A YE Lijian’,HUANG Songhua ,QIU Xiaojun (1.AAC Acoustic R&D Centre(Nanjing),Nanjing 210093,China; 2.The Institute of Acoustics,Nanjing University,Nanjing 210093,China) Improved Speech Enhancement Algorithm Based on Short-Time Spectral Analysis 【Abstract]The principle of speech enhancement algorithm based on short—time spectral analysis is presented. Improvements are made on the classical spectral subtractive method.The estimation of the a—priori—SNR and the time—recursive averaging algorithm for noise estimation are introduced and used.Several post-processing methods are used to further improve the results.The improved method is quite effective in speech enhancement as it can cancel a large amount of background noise with little distortion to speech signa1.Objective and subjective experimental results indicate that this proposed method is superior to the known algorithms. 【Key words】spectrla subtraction;a-priori-SNR;time-recursive averaging algorithm 1 引言 语音增强算法的研究,是语音信号处理的热点问 题之一。各国的研究人员,几十年来提出了数十种语音 计,噪声自回归迭代更新估计,及一系列后处理方法, 进行了尝试,取得了较好的效果。 2 短时谱分析语音增强算法的原理 短时谱分析法基本原理是通过对含噪语音信号 进行短时谱分析,并在频域计算出一个随时间变化的 实数因子,把短时谱和该因子相乘后变换回时域来实 增强的算法,然而至今仍没有一种算法可令人完全满 意,不是产生了较大的“音乐噪声”或残留噪声,就是造 成了明显的语音失真n 。甚至有学者经过研究得出, 现有各种单通道语音增强算法处理的结果相比增强 前的含噪语音在主观质量及语言可懂度上不仅没有 现降噪。经典谱减算法的基本思想是在假设加性噪 声与短时平稳的语音信号相互的条件下,从含噪 明显的提升,甚至大部分算法都有不同程度的下降 。 由于噪声种类很多,特性并不完全相同,因此针 对各类噪声必须采取不同的语音增强方法。一直以 来,人们都在加性噪声的模型上进行研究,提出了各 种语音增强算法。大致可以分为四类:基于短时谱分 析的方法;基于线形代数的子空间方法;基于时域滤 波的方法;其他方法 1。 这其中,研究时间最长、应用最广泛的就是基于 语音的功率谱中减去噪声功率谱,从而得到较为纯 净的语音频谱。其基本流程如图1所示,假设噪声与 短时平稳的语音信号是相互的。在此条件下,将 输入的含噪语音进行快速傅里叶变换(FFT),并对信 号中噪声进行估计,然后在变换域相减得到去噪后的 语音,即从含噪语音的功率谱中减去噪声功率谱,从 而得到较为纯净的语音信号频谱,再经逆快速傅里 叶变换(IFFT)获得去噪后的语音信号,从而达到降噪 效果。 短时谱分析的方法,而其中最经典的就是谱减法。笔 者在谱减法的基础上进行改进,结合先验信噪比估 图 查丝篓 】生墓堑鲞簋Q9塑 语音技术 ⑨6@@可@@响闶⑥0⑥ V 得到降噪后的语音时域信号[41。 带噪语音信号 『取出相位信息 I 3 改进方案 基本的谱减算法最大的优点是原理简单、计算量 小,但也存在一些缺陷。最主要的是谱减法是一种最 量童 呈H!! 銮 H塑 塑鱼H丝塑量童坚堕堂 图1谱减法流程 设s(t)为纯净语音信号, (t)为噪声信号,Y(t) 大似然估计,并没有对语音频谱的分布进行假设,而 为含噪语音信号,则在时域有 语音频谱分量的幅度对人耳的听觉是最重要的。因 y(t)=s( )+ (t) (1) 此谱减法进行增强处理后,会带来“音乐噪声”,使听 用y ),s ),V )分别表示Y(t),s(t), (t) 者在听觉效果上受到一定的干扰影响。下面将详细 的傅里叶变换,则由式(1)可得 Y(∞)=S( )+V( ) (2) 由式(2)可得 E 0y( )f2)=E 0 ( )『 +E 0 ( )0+ 2E{R f5(∞) (∞) l} (3) 前面已经假设s(t)和 (t)是相互的,所以 S )与V )也相互。而V )为零均值的高 斯分布的噪声,故E{Re1.s ) l}一项等于0。有 E 0y( ) l=E 0 ( )l + 0 (∞)0 (4) 由于语音信号是短时平稳的,因此需要对输入语 音信号分帧处理,同时要乘以窗函数,减少帧信号边 界处的不连续造成的频率泄露,避免相应的“块效 应”。一般采用10—30 ms作为一帧信号进行处理,另 外考虑到FFT计算的方便,在8 kHz采样率下,一帧信 号一般取128或256个采样点。由式(4)可得出 Ivo( ̄o)l =1.s )卜fro(o)f (5) 式中,n表示分帧、加窗后的第n帧。 由于平稳噪声的功率谱在发音前和发音期间可 以认为基本没有变化,这样可以通过发音前的所谓 “寂静段”(认为在这一段里没有语音只有噪声)来估 计噪声的功率谱IV )f ,从而有 lSn( )I =I (∞)f 一I ( )l (6) 由此得到原始语音的估计值 IJs (∞)f=『Iyn( )卜Ivo(o ̄)l f (7) 频域处理过程中只考虑了功率谱的变换以及幅 度上的处理。而最后IFFT变换中需要借助相位谱来 恢复降噪后的语音时域信号。根据人耳对相位变换 不敏感这一特点,可以用原含噪语音信号Y(t)的相 位谱来代替估计之后的语音信号的相位谱,从而可以 分析几个步骤并进行改进。 (1)频段划分 在基本谱减算法中,信号经过频域变换后,每一 个频率点都作为一个单独的谱分量,即对于256点一 帧的数据,经过FFT变换后,分为了128个频带进行 后续处理。这样做不但加大了运算量,而且过于细致 的频率划分,每个子频带之间的不连续,造成谱相减 之后的残留噪声。 因此,笔者提出对于4 kHz以下带宽的信号进 行一定的频带划分。首先基于子空间语音增强算法 中,参考临界频带的划分,将4 kHz分为l8个频带 。 经实验测量,效果有明显提升。但对于中低频信号 (800 Hz以下),增强后的语音信号能量有所减小,出 现了部分失真。而这一段频带正好是汽车、街道等大 部分噪声能量集中的频段。因此,又考虑将800 Hz以 下频段进行更细致的划分。 对不同频带划分的研究发现,频带划分的越粗 略,对噪声的衰减效果越好,但同时会造成部分语音 能量的损失,带来失真;反之,频带划分越细,语音信 号的能量可以更好的保留,但噪声的衰减较少,同时 容易产生音乐噪声。最终采用如表1所示的23个频 带划分,有较好的效果。 (2)衰减法和先验信噪比估计值的引入 经过研究发现,对于谱减法,降噪后语音中的原 噪声段,由于原始噪声被消除,产生的“音乐噪声”听 起来特别明显;相对而言,处理后的语音段中的音乐 噪声,由于有语音信号的“掩蔽”,听起来就不是非常 恼人。 因此考虑对于非语音段采取噪声衰减的方法,其 主要步骤与谱减法类似,区别主要在转换到频域之 后,一方面更新信号幅度谱,另一方面计算当前帧新 的信噪比SNR,以此判断当前帧中是否含有语音,若 判断当前帧是语音帧,采用谱减法进行处理;若判断 为噪声帧,则基于信噪比大小,进行噪声频谱的衰减, !!!妻丝 型 生篁墅堂蔓 !塑囹 表1 改进算法23个频带划分 SNRp ̄ior(k,m + (1一.)max[0,SNR ( ,m)一1】 (12) 式中,m表示当前帧,m一1为前一帧; (k,m一11表示 前一帧语音信号的估计结果。 为平滑因子。由式 (12)知,先验信噪比是通过递推估计得到的。 ,.●,、●. .1 1E~,—S,● 一 一得到去噪后的信号,如F式 S(k,m)-G(k,m)・Y(k,m) (8) =min )] 式中,P决定增益系数G( ,m)的衰减率,一般取1。 y是基于信噪比的阈值,一般取值范围为5≤A≤20[6]。 对于信噪比的计算,一般有两种方式,分别是后 验信噪比(posterior SNR)和先验信噪比(prior SNR), 分别定义如下 Js 垒 Ir(k )l ̄ (10) ~垒 可见,后验信噪比是由含噪语音信号的能量比上 噪声的能量,是信噪比的估计值,因此当输人信噪比 较低时,相邻帧之间的后验信噪比不可避免地存在突 变,因此由此计算得出的相邻帧之间的语音信号估计 值不可避免地残留背景噪声孤立谱峰,导致音乐噪声 的出现。而先验信噪比虽然可以避免这一问题,但是 信号的能量是未知的,正是所要求得的。 这里考虑Ephraim和Malah先验信噪比估计公 式【 1 圆!!!查丝 刨】生差 鲞篁Q9塑 对sⅣR ( )f ̄ISNRpiror( )进行对比,可以看出采 c=!● 、,.用先验信噪比估计降低“音乐噪声”的原理。由式 、IJl(10)~(12)可知,SNR叫( )一1可作为SNRpiror( )的近 似估计。取一个含噪语音样本,在连续的50帧信号 的同一频点,对比先验信噪比估计s Rprior( )和后验 信噪比 忱 (后),得到图2㈣。 从图2可以看出:图中左半边,即信噪比较低的 情况下,S/ ̄Rprior( )的波动要比s 。 ( )一1的波动低 得多;而在图的右半边,即信噪比较高的情况下, Js ( )仅仅比s ( )一1延迟了一帧的时间。 在低信噪比范围内,s Rprior( )在连续帧内比 SNR )一1的平滑特性强的多,也就是 ,i 。 ( )的 方差远远小于s ( )一1的方差。 SNRprior( )的这一平滑特性直接导致了由其所计 算出的增益函数波动降低,方差减小,有效地降低了 在频域呈随机起伏尖峰的“音乐噪声”。 在使用基于Ephraim和Malah的先验信噪比估计 值时发现,会出现对噪声的过估计,即在高信噪比的 情况下,得到的信噪比估计值偏高,造成增强后的语 音失真,这里采用计权噪声估计方法对其进行修正。 以之前得到的后验信噪比为判断值,参照如图3 非线性计权曲线的非线性函数,得到计权因子,对先 验信噪比估计值进行加权处理。 _.,~、— 一图中, l取1.5左右, 2取200,y 取150。 结合谱减和衰减算法,引入先验信噪比,最后得 到的信号估计值如下 y( )一b一0.5×lg[SNR ( (尼), (k)= SNRp >a (13) Y(k)/2 J r,其他 式中,a是噪声帧判断阈值,取值1~10。b,c为常数, 取值均在3-6之间。 (3)采用时间回归平均法更新噪声 从前面的分析中可以看出,对于短时谱分析算 法,噪声能量的估计准确性要求非常高。如果能完全 知道噪声频谱信息,就可以完全还原干净语音信号。 当然对于单通道系统,这在理论上也是无法实现的, 因此就要求能尽量准确地获得噪声能量的估计值。 对于初始噪声的估计最简单的方法是对于输入 的前几帧数据,直接以数据信号的能量代替噪声能 量。这种方法简单并且有效。但在某些情况下,比如 正好开始时就是语音帧,可能会出现问题。因此,一 般采取的方法是在开始降噪算法处理之前,在一定时 间t内连续监测数据帧能量的变化情况,将其中能量 最小的数据帧频谱作为初始噪声谱。t的长度可以依 据一般字词的持续时间来确定,也可依据实际采集语 音信号中的字词长度统计结果来确定。这样保证了 系统的稳定性和实用性。 而对于之后的噪声能量更新,本文采用了基于后 验信噪比的时间回归平均法。其噪声更新公式如下 I (m, )I‘= m, )』 (m一1, )』‘+ [11/_z(m,后)]Iy(m, )『 (14) 式中, fm,k惺平滑系数,其计算公式为 (m, ) ■ 两 (15) y (m): ) ∑l (m-i, ){ 语音技术 ⑨6@@ @@响闶⑨0⑨ V (A)为近似的后验信噪比,由当前帧的信号能 量与过去10帧噪声能量平均值得到。 可见当信噪比越大,输入信号中语音能量较大, Ot(m, )一1,噪声能量更新较为平缓;信噪比小时,输 入信号中噪声部分较大,Ot(m,k)一0,噪声能量可以 得到迅速更新。采用时间回归平均法,可以很好地跟 踪噪声的变化,特别对于街道噪声、babble噪声等突 发性较高的噪声,效果较好。 (4)频带增益系数调整 式(13)可以表示成如下形式 S(k)=q(k)・Y(k) (17) 式中,口表示对不同频带的增益系数。为使语音增强 的效果更好,可以进行一系列的后处理改进。 对得到的增益系数进行调整,首先以当前帧先验 信噪比为判断,小于某一阈值频带的增益系数均乘以 某一调整值qmo ,这样做可以进一步抑制残余噪声。 接着将所有小于某阈值的增益系数调整到门限 值q ,这样做可以避免一定的语音失真。 可以表示为 )= ’ (18) q c ={; ’ >gn。 c 9 式中,qmod=0.1; =1.2;gn。。 =0.01。 4 实验结果 对改进算法进行了详细的主客观实验,并与目前 公认较好的logMMSE算法 进行了比较。其消噪后的 波形如图4所示。 实验采用的音频来自NOISEUS数据库。NOISEUS 是由美国德州大学达拉斯分校(u.T.Dallas)开发的一 个语音库。这个语音库包含了30个IEEE短句。环 垒妻熊堂 !生篁堑鲞筻Q!塑围 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务