首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 116 毫秒
1.
基于神经网络的汉语孤立词语音识别   总被引:3,自引:0,他引:3  
研究了基于神经网络的中文孤立词语音识别技术;将时间规整算法与神经网络相结合,组成一个混合级联神经网络语音识别系统. 在这个模型中,第一级是时间规整神经网络. 其作用是完成时间规整功能,从输入不等长的语音信号特征矢量序列中提取固定长度的特征矢量;然后将这组特征矢量馈入后一级BP网络完成语音识别. 利用该方法对小词表汉语孤立词进行语音识别实验,获得了98.25%的正确识别率. 实验结果表明,该系统不仅利用神经网络解决了语音识别中的时间规整难题,而且识别性能明显得到改善,识别率和训练速度均优于采用线性时间规整的神经网络语音识别方法.  相似文献   

2.
语音识别和控制环境中,非语音信号(噪音)很容易与语音信号相混淆,一部分噪音被机器误认为语音,导致系统性能恶化.针对这一问题,以说话人识别理论为基础,提出了一种采用矢量量化来对音频信号类型(噪音或语音)进行确认的方法,以便于后期对非语音信号的噪音进行鉴别并且予以消除,提高语音信号处理系统的工作效率.在此基础之上,在MATLAB平台上设计了一个基于此方法的语音与非语音识别的仿真系统.测试结果表明,系统实现了语音与非语音识别的基本功能,达到较好的工作效果.  相似文献   

3.
为克服低速率声码器因清浊音硬判决、粗判决而导致解码语音有帧过渡等不自然感的缺陷,在分析比较目前主流声码器编码算法中激励参数提取和量化算法的基础上,将模糊数学中的隶属度概念引入语音子带清浊音描述。提出了五维的浊音隶属度矢量概念,用于精细描述语音丰富的激励信息;阐述了浊音隶属度矢量的提取算法;提出了矢量量化码本的模糊聚类与LBG级联训练算法(F-LBG:Fuzzy-LBG);采用提取算法提取、建立了浊音隶属度码本的训练样本集,采用F-LBG训练了浊音隶属度码本;将提取算法和F-LBG法训练得到的浊音隶属度码本分别应用于正弦激励声码器、混合激励声码器和同态声码器的语音编、解码仿真。结果表明,用浊音隶属度矢量描述合成语音激励信号的算法,具有较高的准确性和较强的噪声鲁棒性。  相似文献   

4.
论述了一种高质量、低速率的语音编码矢量量化方法。在提取声道参数中采用了增益归一化模型谱失真测度[2]。计算机模拟结果表明,本文在训练码本时采用的方法是行之有效的。  相似文献   

5.
本文提出一种新的矢量量化方法压缩语音特征用于孤立字语音识别.新方法借鉴了隐马尔柯夫模型(HMM)中状态的概念来规划模板;用动态规划(Dyna-mic Progamming)的技术优化矢量量化产生的初始码字.新方法使得识别所需的模板库的尺寸明显减小,识别响应时问缩短,而且由于模板的优化,使得系统的正确识别率显著提高.  相似文献   

6.
利用矢量量化的说话人识别系统的研究   总被引:2,自引:0,他引:2  
利用矢量量化(VQ)技术实现了与文本有关的说话人识别。系统采用语音信号的LPC倒谱系数、差值倒谱系数、基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,对语音库中语音的平均识别率达到了92%,实时识别率达到90%以上。实验结果表明该系统具有识别精度高、速度快等特点,是一种有效的说话人自动识别的实现方法。  相似文献   

7.
一种基于正弦模型的变码率低速率宽带语音编码算法   总被引:1,自引:1,他引:0  
基于语音正弦模型,采用能量谱熵和子谐波谐波比率方法进行语音分析。根据最小二乘估计准则提取语音参数,引入多形态量化方法和幅度参数拟合量化模型,在对分裂矢量量化过程中采用动态时间归整的方法快速搜索码本,提出了一种变码率、低速率、宽带语音编码算法。仿真结果表明:在有效降低码率和算法复杂度的前提下,该算法具有语音参数分析精度高、实时性好和语音合成质量较高的特点,并能在汽车及音乐背景噪声下重建高质量语音。  相似文献   

8.
基于多特征序贯判决的电话语音声纹鉴别方法研究   总被引:2,自引:2,他引:2  
提出一种基于倒谱特征矢量量化结合音调特征序贯判决的电话语音声纹识别方法 .文中分析了长时LPC倒谱特征和音调特征的特性 ;根据LPC倒谱各维分量对说话人识别贡献不同 ,改进了失真测度 ;用矢量量化方法建立每个说话人语音模型 ,构成一种分类准确、存储数据少、响应速度快的不依赖文本的声纹鉴别系统 ;构造一种简化的音调测度 ,将声道和声源特征结合 ,采用序贯判决策略 ,提高了系统的顽健性 .实验表明 ,在 60位说话人集合中 ,用大约 10秒的话音做识别 ,正确率达 95%以上  相似文献   

9.
本文介绍一种语音电子系统(VES),并讨论该系统中所采用的数据压缩技术--矢量量化,以及矢量量化码书与快速搜索算法的设计。  相似文献   

10.
针对双矢量量化方法中语音的静态特征和动态特征的权重不满足可加性的情况,提出了一种新的说话人识别方法——基于Sugeno测度的动态不可加双矢量量化说话人识别方法。该方法在Sugeno测度空间上将说话人语音的静态特征和动态特征用Sugeno测度进行动态融合。然后,在噪声环境下研究了该方法的识别效果,找到了噪声环境下语音的静态特征和动态特征参数的较优的权重组合。实验结果表明,与双矢量量化识别方法相比,该方法可以使识别率明显提高。该方法为研究各类语音特征参数之间的关系、探寻最优的特征匹配方案提供了一种新的途径。  相似文献   

11.
介绍了采用连续M元高斯混合密度的隐式马尔柯夫模型的语音识别实验系统,对语音特征矢量用非线性归一化算法进行预处理.另外,还提出一种基于语音知识的模型初始化方法.实验证明:语音的预处理和模型初始化方法都取得了较明显的效果.  相似文献   

12.
为提高ACELP语音编码器中激励增益的量化性能,基于广泛应用的代数码激励线性预测语音编码模型,提出了一种具有一般意义的激励增益码书的建立方法,该方法可应用于各种不同速率ACELP语音编码器中.实验结果表明,使用该方法建立的6b增益矢量码书与8b标量增益码书的性能相当.  相似文献   

13.
基于核K-均值聚类和支持向量机结合的说话人识别方法   总被引:1,自引:0,他引:1  
提出了基于核K-均值聚类方法与支持向量机结合的说话人识别方法,为每两个人建立一个支持向量机,对支持向量机输入的语音信号先进行核K-均值聚类,并选取有效样本作为支持向量机的输入,本文提出的聚类方法能够去更好的聚类并约简数据,提高了识别率.实验比较了在用支持向量机作为分类器的情况下,该核聚类与传统聚类方法的训练速度和识别性能,验证了本文提出方法的有效性.  相似文献   

14.
一种SVM多类分类算法用于抗噪语音识别   总被引:1,自引:0,他引:1  
为提高机器学习的推广能力,解决语音识别系统在噪声环境中识别率变差等问题,采用改进的MFCC语音特征参数,用支持向量机(SVM)作为语音识别系统的识别网络,对SVM多类分类问题采用"一对一"分类算法,实现了一个汉语孤立词非特定人中等词汇量的抗噪语音识别系统。实验结果表明,SVM线性核函数和多项式核函数具有较好分类结果;当工作在不同信噪比情况下,SVM语音识别系统有较高的识别率,训练时间也能大为缩减,具有较的好鲁棒性。  相似文献   

15.
不定人语音识别系统   总被引:1,自引:0,他引:1  
采用了说话人自适应和大数量人的训练数据两种方法解决不定人语音识别问题,在离散隐马尔可夫模型DHMM孤立字语音识别系统中,采用了3种说话人自适应方法,方法1,方法2为码本自适应,方法3为新人数据自适应,并将新建的1000人的语音库用于不定人语音识别。实验结果表明,说话人自适应方法均有一定的自适应效果,特别是多码本自适应后,识别率可提高16%,达到93%以上;在数据库的采用,使得不定人的数字识别率达到  相似文献   

16.
湖南省内生矿产资源丰富,内生成矿事件主要有加里东期(以志留纪为主)、印支晚期(晚三叠世)、燕山中晚期(晚侏罗世—早白垩世)等3期。以区域矿产资料为基础,结合大地构造、成岩成矿年龄、矿床成因机制等研究成果,对上述3期内生成矿事件的构造格局控矿特征和动力机制进行探讨。①受加里东运动自东南向西北扩展以及深部岩石圈结构差异控制,加里东期湖南省自东南往西北分为成矿特征有别的3个构造带。湘中—湘东南构造岩浆带(Ⅰ)发生后碰撞花岗质岩浆活动,于局部产生与岩浆活动相关的W、萤石等成矿作用; 雪峰构造带(Ⅱ)东部的雪峰冲断带(Ⅱ1)形成了以构造活化成因为主的金矿和锑金矿; 雪峰构造带(Ⅱ)西部的武陵低缓褶皱带(Ⅱ2)及湘西北构造抬升带(Ⅲ)内形成了与寒武纪同沉积断裂活动、加里东运动后的伸展活动以及相应的热液活动有关的汞铅锌矿。②印支晚期受深部岩石圈结构差异控制,湖南省自东南至西北分为3个构造带:湘中—湘东南构造岩浆带(Ⅰ)因后碰撞减压熔融而发生大规模花岗质岩浆活动,从而于其东南部形成钨锡铅锌多金属矿床,西北部形成锑金钨多金属矿床; 雪峰构造带(Ⅱ)可能无内生热液成矿作用; 湘西北褶皱带(Ⅲ)发育小型脉型铅锌矿。③燕山中晚期,湖南省自东南往西北分为3个构造带:湘中—湘东构造岩浆带(Ⅰ)受岩石圈拆沉、软流圈上隆、陆内碰撞后期增温减压、俯冲板块崩塌等深部构造作用控制而发生大规模花岗质岩浆活动,形成了大量的有色金属矿床和金矿床; 雪峰西部构造带(Ⅱ)成矿作用弱,局部存在Au、Hg成矿作用; 湘西北褶皱带(Ⅲ)发育少量低温热液充填型萤石矿和砷矿。  相似文献   

17.
Based on fuzzy Gaussian mixture model (FGMM) and support vector regression (SVR),an improved version of non-intrusive objective measurement for assessing quality of output speech without inputting clean speech is proposed for narrowband speech.Its perceptual linear predictive (PLP) features extracted from clean speech and clustered by FGMM are used as an artificial reference model.Input speech is separated into three classes,for each a consistency parameter between each feature pair from test speech signals...  相似文献   

18.
为降低码书的存储空间和搜索复杂度,更充分地利用线谱频率参数帧内和帧间的相关性,提出了一种快速、低存储的矢量量化器。将线谱频率参数去除平均值后进行一阶滑动平均预测,将残差进行三级矢量量化。在第二级量化时,将高维线谱频率参数矢量分裂成两个低维的部分,分别用不同的码书进行量化,降低了码书的存储空间和搜索复杂度。C语言仿真结果显示,在满足低速率编码的前提下,平均谱失真达到0.91dB,2~4dB的谱泄露为0.13%,无4dB以上谱泄露,同时码书的存储空间和搜索复杂度均降低了31%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号