您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页语音信号处理复习题

语音信号处理复习题

来源:宝玛科技网
语音信号处理复习题

1 由下面的WAV文件读出语音的编码信息:

52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01..................... 内容批注(Notes) (Contents) 区块说明52 49 46 46 R I F F (Chunk A4 9A 7B 01 24,877,732 Chunk size (017B9AA4) = 24,877,732 16descriptor) 编码(Code) 内容批注(Notes) (Contents) f m t 16 1 2 Sub_chunk_1 size (00000010) 16 = 16 (0001) 16= 1, PCM format (audio) Number of channels = (0002) 16= 2 Sampling rate (0000AC44) 16= 44,100 Bytes/second = (0002B110) 16 = 176,400 Block align =(0004) 16= 4 Bits/sample = (0010) 16= 16 批注(Notes) 编码(Code) 57 41 56 45 W A V E fmt 子 区块 66 6d 74 20 (fmt 10 00 00 00 sub_chunk) 01 00 02 00 44 AC 00 00 44,100 10 B1 02 00 176,400 04 00 10 00 编码(Code) 内容(Contents) 4 16 数据子区 61 74 61 d a t a 块 80 9A 7B 01 24,877,696 Size:(017B9A80) 16 = 24,877,696 (data 42 FF 35 FC L= 65,346,R= ,565 (FF42) 16= 65,346 sub_chunk) (FC35) 16= ,565 E2 FE 07 00 L= 65,250,R= 7 E7 FE AF 03 L= 65,255,R=943 5F FF 65 01 L= 65,375,R= 357 (FEE2) 16= 65,250 (0007) 16= 7 (FEE7) 16= 65,255 (03AF) 16= 943 (FF5F) 16= 65,375 (0165 ) 16= 357 2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时”分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.

4 语音信号的时域分析方法有那些?

答:短时能量,短时平均过零率,短时自相关函数 5 语音信号频率范围是多少?

答:语音信号的频率大约在20Hz~20KHz。

6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。

答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。由声带的尺寸、特性和声带所受张力决定。F0的大小决定了声音的高低,称为音高。

男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz 7 可以认为多长的时间范围内,语音信号是平稳信号。 答:10-30ms

8 电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。

9 如何利用语音信号的时域分析方法进行清、浊判断。

答:1、短时能量分析依据:是基于语音信号幅度随时间变化》清音段幅度小,其能量集

中高频段;浊音段幅度较大,其能量集中低频段;

2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。

3、短时平均过零率:浊音平均过零率低,集中在低频段;清音过零率高,集中在高频段。

4、短时自相关函数:浊音语音的自相关函数具有一定的周期性;

清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身 10 通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。 答:短时能量和短时平均幅度,短时平均过零率,短时自相关函数 11 人的发音器官包括那些。

答:人体发音器官—肺、气管、喉(包括声带)和声道。

12、 傅立叶分析在信号处理中有什么意义?

答:1、它是分析线性系统和平稳信号和稳态信号特性的强有力手段。

2、以复指数函数为基函数的正交变换,理论完善,计算方便,概念容易理解。

3、傅里叶分析可以使信号的某些特性变得很明显。语音信号的频谱具有非常明显的语言学意义,可以获得重要的语音特征(如共振峰频率和带宽等),

13 文语转换系统(TTS)属于那种语音合成系统。 答:规则语音合成系统

14 语音的共振峰是如何形成的?

答:气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。

15 同态信号处理也称为同态滤波,画出同态滤波中特征系统框图

16 语音合成的分类及特点,举出一个语音信号参数合成的例子。 1、波形合成法

特点:简单/小词汇(报站器)

2、参数合成法 特点:可以合成大词汇(字典) 3、规则合成法

特点:实现难度较大

如TTS系统(文语转换系统)

17 画出实现语音信号时频语音增强功能的框图。

18 什么是语音信号的“短时”处理方法。

答:语音信号的能量是一种随时间变化的信号,可能是浊音激励也可能是清音激励,浊音的

基音周期以及信号幅度等语音参数也都对时间变化,但这种变化时缓慢的,在一小段时间内10-30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的段时间段来处理。而每一段时间具有固定的特性,这种方法称为“短时”处理方法。 19 语音信号短时能量分析的用途

答: 1、区分清音段与浊音段; 2、区分声母和韵母;

3、在高信噪比下,区分无声与有声的分界;

4、区分连字的边界; 5、用于语音识别。 20 短时自相关函数的物理意义,性质,作用。 答:物理意义

确定两个信号在时域内的相似性,用于研究信号本身。 表示方法

序列经过一个冲激响应为 hk(n) 的数字滤波器滤波即得到短时自相关函数。

Rnkmxmxmkhnm k性质:

(1) 对称性 R(k)= R(-k)

(2)在k = 0处为最大值,即对于所有k来说,|R(k)|≤R(0)

(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率 作用:

a.区分清/浊音

浊音语音的自相关函数具有一定的周期性。

清音语音的自相关函数不具周期性,类似噪声,与其本身相似。 b.估计浊音语音信号的周期,即估计基音周期。

21 利用短时自相关函数进行语音分析时要注意的问题

22 语音信号傅里叶分析的作用(p41) 在语音信号处理中,傅立叶表示在传统上一直起主要作用。其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的

23 短时傅里叶变换的滤波器的解释。

24 取样率的基本概念

(1)时域取样率的基本概念。

(2)频域取样率的基本概念。

(3)总取样率的基本概念

25 从如下语音信号的短时谱中能得到什么信息?

答:1、快速变化,由激励信号引起的;2、慢速变化,声道滤波器的共振峰引起的;3、采用汉明窗得到的短时频谱较较矩形窗平滑。 26 倒谱分析的作用 答:(1)区分清/浊音

(2)求浊音的基音周期, 可以得到浊音的激励信号。 (3)得到声道的冲激响应h(n)

27 简述语音信号的特点,基频、共振峰是什么含义?

答: 特点:语音一般由清音和浊音组成,语音信号具有短时平稳性。

基音频率:浊音的声带振动基本频率。是声带张开和闭合一次时间的倒数。

共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频

率或简称共振峰。共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。

28 线性预测的基本思想。 答:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过时实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测数据,而预测系数就是线性组合中所用的加权系数。 29 线性预测分析如何用于语音编码和语音合成。

答:编码:预测误差e(n)就是激励信号G*u(n),预测系数{ak}就是声道虑波器的系数

{dk}.ak=dk,e(n)=G*u(n)线性预测分析可以对生成模型的增益参数G和滤波器系数{dk}进行直接和高效率的计算。

合成:

30 简述矢量量化的过程。 答:(书上定义):将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧,构

成K维空间中的一个矢量,然后对这个矢量进行量化。

(课件上说):当给矢量量化器输入一个任意矢量Xi进行矢量量化时,矢量量化器首先

判断它属于哪个子空间,然后输出该子空间的代表矢量Yj.矢量量化过程就是用Yj代替Xi的过程。

Yj=Q(Xi) 131 通常线性预测分析设定的模型是什么模型。 答:全级点模型。

32 什么是矢量的失真测度?常用的失真测度有哪些

答:失真测度(距离测度)就是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或

失真的度量方法,它可以描述两个或多个模型矢量之间的相似程度。常用的失真测度为欧氏距离测度。

33 矢量量化器最佳设计的两个条件? 答:最佳划分,最佳码本

34 初始码书的生成方法

随机选取法:从训练序列中随机选取J个矢量作为初始码字,从而构成初始码本。 法:

35 短时能量和短时过零率的的用途。

答:短时能量:1、区分清音段与浊音段;2、区分声母和韵母;3、在高信噪比下,区分无

声与有声的分界;4、区分连字的边界;5、用于语音识别。

过零率: 1、区分清音和浊音:浊音平均过零率低,集中在低频端;轻音过零率高,

集中在高频端。 2、从背景噪声中找出是否有语音,以及语音的起点。

36 对语音信号进行处理时为什么要进行分帧。

答:语音信号短时平稳,要将语音信号划分为很多短时的语音段,而每个短时的语音段称为

一个分析帧。这样,对语音信号进行分针处理就相当于对特征固定的持续信号进行处理。经过处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理来提取语音特征参数。 37 为什么端点检测有重要意义?

答:端点检测:从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能

使处理的时间减到最小,而且能排除无声段的噪声干扰。实验表明:端点检测的正确与否影响到识别率的高低。

语音端点检测的方法:短时能量和短时过零率。

38 什么叫LBG算法,怎样设计初始码本,并用来训练码本。

LBG算法是一种递推算法,从一个事先选定的初始码本开始迭代。把训练序列按照码本中的元素根据最邻近准则分组,对每一分组找质心,得到新的码本,又作为初始码本,再进行分组,重复上述过程,直到系统性能满足要求和不再有明显的改进为止。

39 为什么说语音信号可以看成隐马尔科夫过程,隐马尔科夫过程有哪些模型参数。

HMM包含两个随机过程,三个概率矩阵,一个输出概率

答:隐马尔可夫模型:只能观察到输出符号序列(ab),而不能观测到状态之间如何转移(状态转移概率)和状态的分布(状态的概率)。而语音信号是一个可观察的序列:它是由大脑中的思维(不可观测)及语言需要和语法知识(不可观测)所发出的参数流。

40 列举常用语音编码速率的值。

答: kbit/s; PCM; 32kbit/s; ADPCM;

4.8kbit/s; CELP; 2.4kbit/s; LPC声码器 41 波形编码、参数编码与混合编码各有什么优缺点。 答:波形编码:话音质量高,编码速率高。

参数编码:编码速率低,自然度低,对环境噪声敏感。 混合编码:质量高和速率低.

42 在语音编码中,如何使用自适应技术。

答:利用自适应的思想改变量化间隔(量阶)的大小,即用小的量化间隔去编码小的差值,使用大的的量化间隔去编码大的差值

43 语音合成的目的是什么?它主要分为哪几类?比较它们的优缺点。

答:目的:让机器说话,达到一定的音质与可懂度(或产生与人类通信相关的语音) (1)、波形合成法。 优点:合成音质好; 缺点:存储空间大。 (2)、参数合成法。 优点:存储空间小; 缺点:合成音质较差。 (3)、规则合成法。 优点:可以合成无限词汇,存储量小 ; 缺点:合成音质效果较差 44 在TTS系统中,如何进行语音合成中的韵律控制。

答:韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数

来体现,通过控制这些参数达到对韵律控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。

预处理:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。 语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。 模式匹配:将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。

专家知识库:用来存储各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。

识别决策:是最后一步,也是系统识别效果的最终表现。根据若干准则及专家知识,判决选出可能结果中最好的结果,由识别系统输出。

46 为什么语音识别时需要做时间规整?

答:语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会

导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音,或者带上一点呼吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。 47 说话人识别的目的及分类。

答:目的:确认说话人(即证实说话的人是否是所要求的那个人)或者从某个已知的人群集

合中辨认出那个说话人。

分类:说话人确认和说话人辨认。主要用于身份的验证。

48 什么叫加性噪声和乘性噪声。为什么加性噪声的处理是语音增强的基础。 答:按噪声和信号相关的性质可将噪声分为加性噪声和乘性噪声。 加性噪声是指噪声和信号相关性是加和关系;(如冲激噪声、周期噪声、宽带噪声等) 乘性噪声是指噪声和信号相关性是乘积关系;(如残响基传输网络的电路噪声)

对加性噪声进行处理,从带噪声语音信号中提取尽可能的纯净的原始语音,改善语音质量提高语音可懂度,是语音增强的有效的基本方法。

工作过程:将含噪语音信号和有声、无声判别得到的纯噪声信号进行DFT变化,从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方,然后开方,得原始语音谱幅度的估值,在借用含噪语音的相位,进行IDFT变化,得到增强的语音。 50 参考:A律压扩编码实例:(课件第五章) LBG算法实例(课件第三章)

隐HMM模型求 输出概率实例(课件第四章) 动态时间规正法(DTW)的计算实例(课件第七章)

51 声道冲激响应序列的复倒谱特点。说明如何在语音信号的倒谱中分离出声道冲激响应,

得到声道冲激响应有何用途?

答:(1)h(n)为有限长实序列,则其复倒谱是双边实序列

(2)由于|ak|、|bk|、|ck|和|dk|均小于1,故复倒谱是衰减序列,随着n的增大而衰减。 (3)复倒谱衰减速度快,复倒谱比原来序列更集中于原点附近,具有短时性 ,用短时窗函数提取声道响应序列的复倒谱是很有效的 (4)如果h(n)是最小相位序列,即bk=0和dk=0,则复倒谱序列为因果稳定序列。因此,最小相位序列的复倒谱是因果稳定序列。

52 简述LPC方程的建立过程, LPC系数与语音模型有什么关系?

预测误差e(n)就是激励信号G*u(n),

预测系数{ak}就是声道虑波器的系数{dk}.ak=dk,e(n)=G*u(n) 53 利用模式匹配法进行语音识别的步骤

答:先对系统中的每个字,做一个码本作为该字的参考(标准)模板,共有M个字,故共有

M个码本,组成一个模板库。

识别时,对于任意输入的语音特征矢量序列X={X1 , X2 , … , XN},计算该序列中每

一个特征矢量对模板库中的每个码本的总平均失真量误差,找出最小的失真误差对应的码本(代表一个字),将对应的字输出作为识别的结果。

55 语音信号的预处理过程包括哪些?

答:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。 56 通常环境中语音信号的声压级范围是多少? 答:60dB左右

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务