语音信号属于短时平稳信号,一般认为什么内语音信号的特性基本上是日月 不变石 锁特性的

语音信号处理复习题_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
语音信号处理复习题
上传于||文档简介
&&正​确​全​面​的​习​题​集
阅读已结束,如果下载本文需要使用5下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩8页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
语音信号处理实验指导2015年秋要点详解.doc13页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:350 &&
你可能关注的文档:
··········
··········
《语 音 信 号 处 理》
实验指导书
哈尔滨理工大学
自动化学院
电子信息科学与技术系
语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术―矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络 ANN 的研究取得了迅速
正在加载中,请稍后...摘要:本文针对所采集的语音信号,对其时域、频域参;引言;近年来,语音识别已经成为一个非常活跃的研究领域;在语音识别中,最为简单有效的方法是采用DTW(D;一、语音识别系统概述;一个完整特定人语音识别系统的方案框图如图1所示;(1)特征参数能有效地代表语音特征,具有很好的区;(2)参数间有良好的独立性;;(3)特征参数要计算方便,要考虑到语音识别的实时;图1语
摘要:本文针对所采集的语音信号,对其时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人语音信号0到9的识别。 关键词:语音识别;MATLAB;短时傅立叶;DTW
近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在智能家电、工业现场控制等其他应用场合,语音识别技术则有更为广阔的发展前景。
在语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。
一、语音识别系统概述
一个完整特定人语音识别系统的方案框图如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等,然后是参数特征量的提取。提取的特征参数满足如下要求:
(1)特征参数能有效地代表语音特征,具有很好的区分性;
(2)参数间有良好的独立性;
(3)特征参数要计算方便,要考虑到语音识别的实时实现。
图1 语音识别系统方案框图
语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。
二、语音信号的分析与处理
1、语音信号采集
该实验以实验者本人的声音(语音信号0~9)为分析样本,是利用PC机录制,音
频文件采用8000kHz采样频率、16bit量化、单声道的PCM录音格式,用MATLAB本身wavread函数来读取语音文件。如图2为采集的数字信号“3”的语音原始信号。
图2 采集的数字语音“3”的原始信号
2、语音信号分析
语音信号是一种典型的非平稳信号。对于非平稳信号,它是非周期的,频谱随时间连续变化,因此由傅里叶变换得到的频谱无法获知其在各个时刻的频谱特性。如果利用加窗的方法从语音流中取出其中一个短断,再进行傅里叶变换,就可以得到该语音的短时谱。
语音信号的基本组成单位是音素。音素可分成“浊音”和“清音”两大类。如果将不存在语音而只有背景噪声的情况称为“无声”,那么音素可以分成“无声”、“浊音”、“清音”三类。
浊音的短时谱有两个特点:第一,有明显的周期性起伏结构,这是因为浊音的激励源为周期脉冲气流;第二,频谱中明显地有凸出点,即“共振峰”,它们的出现频率与声道的谐振频率相对应。清音的短时谱则没有这两个特点,它十分类似于一段随机噪声的频谱。
2.1 时域分析
语音信号具有时变特性,但在一个短时间范围内(一般认为在10~30ms的短时间内),其特性基本保持不变,即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10~30ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。
2.1.1短时能量分析
短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字
的分界等。如对于高信噪比的语音信号,短时平均能量用来区分有无语音。无语音信号噪声的短时平均能量很小,而有语音信号的能量则显著增大到某一个数值,由此可以区分语音信号的开始点或者终止点。
2.1.2短时过零率分析
过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平均过零数。短时过零分析通常用在端点侦测,特别是用来估计清音的起始位置和结束位置。
2.2、频域分析
短时傅立叶分析在运用离散时间傅立叶变换分析语音信号的变化时,会遇到这样的问题,即单一的傅立叶变换并不能反映时间变化的频谱信息,诸如时变共振峰和谐波。具体而言,通常将信号的每一时刻与其相邻时刻信号的傅立叶变换相联系,这样就可以及时跟踪信号的频谱变化。语音信号的短时傅立叶变换见程序所述。短时傅立叶分析一般采用汉明窗作为分析窗。
3、语音信号的处理
3.1、语音识别的DTW算法
本设计中,采用DTW算法,该算法基于动态规划(DP)的思想解决了发音长短不一的模板匹配问题,在训练和建立模板以及识别阶段,都先采用端点检测算法确定语音的起点和终点。
在本设计当中,我们建立的参考模板,m为训练语音帧的时序标号,M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的输入词条语音称为测试模板,n为测试语音帧的时序标号,N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板和测试模板一般都采用相同类型的特征矢量(如LPCC系数)、相同的帧长、相同的窗函数和相同的帧移。
考虑到语音中各段在不同的情况下持续时间会产生或长或短的变化,因而更多地是采用动态规划DP的方法。把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些形成网格,网格的每一个交叉点(n,m)即表示测试模式中某一帧与训练模式中某一帧的交汇点。DP算法即可以归结为寻找一条通过此网格中若干个点的路径。路径通过的格点即为此时与参考模板中进行距离计算的帧号。应当注意,路径不是随意选择的,选取的路径必定是从左下角出发,在右上角结束。
通常,规整函数被限制在一个平行四边形的网格内,如图3所示。它的一条边斜率为2,另一条边斜率为1/2。规整函数的起点是(1, 1),终点为(N,M)。DTW算法的目的是在此平行四边形内由起点到终点寻找一个规整函数,使其具有最小的代价函数,保证了测试模板与参考模板之间具有最大的声学相似特性。
图3 匹配路径约束示意图
由于在模板匹配过程中限定了弯折的斜率,因此平行四边形之外的格点对应的帧匹配距离是不需要计算的。另外,因为每一列各格点上的匹配计算只用到了前一列的3个网格,所以没有必要保存所有的帧匹配距离矩阵和累积距离矩阵。充分利用这两个特点可以减少计算量和存储空间的需求,形成一种高效的DTW算法。图2中,把实际的动态弯折分为三段,(1,xa),(xa+1,xb),(xb+1,N),其中:
xa= (2M-N)/3,
xb=2(2N-M)/3
xa和xb都取最相近的整数,由此可得出对M和N长度的限制条件:
当不满足以上条件时,认为两者差别太大,则无法进行动态弯折匹配。在x轴上的每一帧不再需要与y轴上的每一帧进行比较,而只是与y轴上[ymin,ymax]间的帧进行比较,ymin和ymax的计算公式为:
ymin=x/2,0≤x≤xb,
2x+(M-2N),xb& x≤N
ymax=2x,0≤x≤xa,
x/2+(M-N/2),xa& x≤N
如果出现xa& xb的情况,则弯折匹配的三段为(1,xb),(xb+1,xa),(xa+1,N)。 对于x轴上每前进一帧,虽然所要比较的y轴上的帧数不同,但弯折特性是一样的,累积距离的更新都是用下式实现的:
D(x,y) = d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-2)]
3.2、MATLAB仿真过程
3.2.1 语音信号预处理
语音信号的预处理包括预滤波、采样和量化、加窗、预加重、端点检测等过程。由于语音信号在帧长为10ms~30ms之内是相对平稳的,同时为了便于计算FFT,本系统选取帧长N为256个语音点,帧移M为128点。
本文采用汉明窗对语音信号进行分帧处理,如下式:
ω(n) =0.54-0.46cos(2πn/(N-1)),0≤n≤N-1
预加重用具有6dB/倍频程的提升高频特性的一阶数字滤波器实现:
H(z) =1-0.937 5/z
端点检测采用基于短时能量和短时平均过零率法,利用已知为“静态”的最初十帧信号为短时能量设置2个门限ampl和amph,以及过零率阈值zcr。语音起始点从第11帧开始检测,其流程图如图4。语音结束点的检测方法与检测起点相似,但此时从后向前搜索。
语音起点检测流程图
3.2 特征参数提取及语音识别
众多研究表明,倒谱特征参数所含的信息量比其他参数多,能较好地表现语音信号。本文选取能够反映人对语音的感知特性的Mel频率倒谱系数(MFCC)作为特征参数,阶数为12。经过MFCC特征参数提取后,各帧语音信号就形成了一个个特征矢量。识别时,将待测语音与模板库中的每一个模板进行模式匹配,找到距离最小的模板作为输出结果。
4、语音信号处理结果
如图4为语音信号“8”的处理结果,其他语音信号处理结果图不在此一一给出。
包含各类专业文献、文学作品欣赏、应用写作文书、高等教育、数字信号处理作业之语音识别论文72等内容。 
 数字信号处理作业之语音识别论文_信息与通信_工程科技_专业资料。数字信号处理 语音识别摘要: 摘要:本文针对所采集的语音信号,对其时域、频域参数进行了系统详尽的分析...  摘要: 摘要:本文针对所采集的语音信号,对其时域、频域参数进行了系统详尽的分析,并在 MATLAB 环境下实现了基于 DTW 算法的特定人语音信号 0 到 9 的识别。 关键...  年 6 月 26 日 指导教师 时间 摘要 本文针对语音信号时域、频域参数进行了系统详尽的分析,并在 MATLAB 环境下实现了基于 DTW 算法的特定人孤立词语音信号的识别...  数字信号处理之语音识别与 处理 学号 姓名 0211511 赵典 1 一 语音信号众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会 中,小至人们的日常生活,...  数字信号处理作业之语音识别小论文_IT/计算机_专业资料。数字信号处理作业之语音识别小论文语音信号的分析与处理摘要: 摘要:本文针对语音信号时域、频域参数进行了系统...  语音识别论文_信息与通信_工程科技_专业资料。第一章 语音识别系统 1.1 语音识别...数字信号处理作业之语音... 17页 免费 基于数字信号处理之语音... 15页 1...  语音识别论文_信息与通信_工程科技_专业资料。语音信号的分析与处理摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在 MATLAB 环境下实现了基于 DTW ...  语音信号处理论文 题目名称:基于 MFCC 的语音识别系统 院系名称: 班学级: 号...语音信号处理是研究用数字信号处理技术对语音信号进行处 理的一门学科。 语音...  语音信号处理相关论文_信息与通信_工程科技_专业资料。摘 要 语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只 有通过语音信号的数字...工具类服务
编辑部专用服务
作者专用服务
语音短时特性的统计分析
语音信号分析是进行语音信号处理的基础,只有分析出能够准确表示语音信号本质特征的参数,才有可能通过这些参数实现诸如语音通信、语音合成、语音识别等的处理。而且,语音信号分析的精准程度也决定着语音识别率的高低和语音合成的音质好坏,所以说,语音信号分析在整个语音信号处理及应用当中都具有举足轻重的地位。  语音信号在整体上虽然具有时变特性,但是在很短的时间区域内是相对稳定的,即其特性保持基本不变,这个很短的时间一般认为是在10ms到30ms之间。因而,在短时间内可以把语音信号看作是一个平稳过程,也就是语音信号具有短时的平稳性。所以对语音信号的任何处理和分析都必须建立在一个短时的基础上,即所谓的“短时分析”。文中对语音信号的统计分析正是建立在“短时分析”基础上。  语音信号的清浊音判决是语音信号处理过程当中的一个十分重要环节,而传统的判决方法是选择一个短时特征值,并且设定该特征值的一个门限。这种方法虽然简单易行,但事实上清/浊音之间并没有明确的分界,设定门限即是对清浊音进行强制分界,这会极大增加清/浊音在重叠区域的误判。为了回避传统方法的这种弊端,提出了一种基于短时统计分析的清/浊音判决方法。该方法以短时统计分析为基础,先对清/浊音短时能量分布的先验概率及其概率密度函数进行估计,然后借助贝叶斯判决模型进行清/浊音判决。先验概率的估计是利用清/浊音的单一特征门限,将大量语音帧分为清/浊音帧,然后统计先验概率;概率密度函数估计是利用有监督参数估计法,先绘出清/浊音分布直方图,从直方图上判断概率密度函数的类型,然后用大量语音样本估计其参数,从而得到概率密度函数。通过仿真实验证明,新方法比传统方法具有更好的判决效果。
学科专业:
授予学位:
学位授予单位:
导师姓名:
学位年度:
在线出版日期:
本文读者也读过
相关检索词
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)(C)北京万方数据股份有限公司
万方数据电子出版社君,已阅读到文档的结尾了呢~~
基于神经网络语音识别算法的研究(硕士论文)(可编辑),语音识别算法,神经网络 语音识别,神经网络算法,bp神经网络算法,人脸识别算法,图像识别算法,神经元网络算法,人工神经网络算法,手势识别算法
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于神经网络语音识别算法的研究(硕士论文)(可编辑)
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

我要回帖

更多关于 30岁剩女基本上没人要 的文章

 

随机推荐