首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
从线性预测HMM到一种新的语音识别的混合模型   总被引:1,自引:0,他引:1       下载免费PDF全文
欧智坚  王作英 《电子学报》2002,30(9):1313-1316
线性预测HMM(Linear Prediction HMM,LPHMM)并没有象传统HMM那样引入状态输出独立同分布假设,但实用中识别性能并不佳.通过分析两种HMM的各自优劣,本文提出了一种新的语音识别的混合模型,将语音静态特性(基于传统HMM)和动态特性(基于LPHMM)分别描述又有机结合在一起,更为精确地刻划了真实的语音现象,同时又继承使系统的实现改动很小和较小的计算量.汉语大词汇量非特定人连续语音识别的实验表明,混合模型的识别性能显著好于LPHMM和传统HMM.理论上,本文还给出了LPHMM的一组闭式参数重估公式.  相似文献   

2.
The representation of good audio features is the first and foremost requirement for improving the identification performance of any system. Most of the representation learning approaches are based on connectionist systems to learn and extract latent features from the speech data. This research work presents a hybrid feature extraction approach to integrate Mel-Frequency Cepstral Coefficients (MFCC) features with Shifted Delta Cepstral (SDC) coefficients features, which are further stacked to Deep Belief Network (DBN), for yielding new feature representations of the speech signals. DBN is utilized for unsupervised feature learning on the extracted MFCC-SDC acoustic features. A 3-layer Back Propagation Neural Network (BPNN) classifier is initialized in terms of the learning outcomes of hidden layers of DBN for identifying language from the uttered speech. The efficiency of the proposed approach is evaluated by simulating several experimental algorithms on the user-defined database of isolated words in four languages, namely, Tamil, Malayalam, Hindi, and English, in the working platform of MATLAB. The obtained results for the proposed hybrid approach MFCC-SDC-DBN are promising. The proposed approach is also compared with the baseline feature extraction approach MFCC-SDC by utilizing traditional acoustic features and BPNN classifier. The accuracy obtained with our proposed approach is 98.1% whereas that of the baseline approach is 82%, thereby providing an overall improvement of 16.1%.  相似文献   

3.
In speech recognition (ASR) based on hidden Markov models (HMM) it is necessary to obtain a spectral approximation with a reduced set of representation coefficients. The author introduces to the speech parameterisation scheme multitapering and a modification of the usual mel frequency cepstrum coefficients (MFCC) processing scheme based on wavelets on intervals (wavelet frequency coefficients, WFC). Phoneme recognition performance improvements compared to the MFCC have been experimentally verified on data from a speech database, using multitapering and WFC.  相似文献   

4.
采用离散HMM的孤立词识别系统   总被引:3,自引:0,他引:3  
探讨了离散马尔可夫模型的基本原理及在孤立词识别中的应用,并且实现了一个文本有关的孤立词识别系统,其正确识别率达到96.3%。  相似文献   

5.
一种高质量的4 Kb/s RCELP语音编码算法   总被引:1,自引:0,他引:1  
给出一种高质量的4Kb/s更新式码激励线性预测(RCELP)语音编码算法。该算法的编码器帧长为20ms,主要特点是使用了从自适应激励信号中分析得到的码本作为固定码本,采用预测式两级分裂矢量量化器量化线谱对(LSP)参数。主观试听表明,该算法的MOS值为3.67,其语音质量与32Kb/s ADPCM基本相当。  相似文献   

6.
胡丹  曾庆宁  龙超  黄桂敏 《电视技术》2015,39(24):43-46
针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提取特征,用隐马尔科夫模型(HMM)训练与识别。实验结果表明,提出的方法最高能使单词识别率提高38.9%,使句子正确率提高21.8%。该方法用于大词汇量连续语音识别是可行的,有效的。  相似文献   

7.
语音合成是实现人机语音通信的关键技术。文中介绍了一种基于语音信号线性预测分析的语音合成方法,以及什么是线性预测系数和如何提取线性预测系数,然后采用了重叠存储法,用预测系数合成语音。这种合成方法可以应用到语音信号的传输过程中,能减小信号的传输带宽,提高传输速率。  相似文献   

8.
利用抗噪幂归一化倒谱系数的鸟类声音识别   总被引:3,自引:0,他引:3       下载免费PDF全文
颜鑫  李应 《电子学报》2013,41(2):295-300
 针对真实环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术.首先,根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱.其次,使用多频带谱减法对声音功率谱进行降噪处理.接着,结合降噪的声音功率谱提取抗噪幂归一化倒谱系数(APNCC).最后,采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验.实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别.  相似文献   

9.
一种基于加权隐马尔可夫的 自回归状态预测模型   总被引:2,自引:0,他引:2  
刘震  王厚军  龙兵  张治国 《电子学报》2009,37(10):2113-2118
针对电子系统状态趋势预测问题,提出了一种加权隐马尔可夫模型的自回归趋势预测方法.该方法以自回归模型作为隐马尔可夫的状态输出,利用加权预测思想对马尔可夫链中的隐状态进行混合高斯模型的加权序列预测,并利用最大概率隐状态下的自回归系数计算模型输出.通过对实际的复杂混沌序列和电子系统BIT状态数据进行趋势预测,并针对不同模型参数下的预测结果进行实验分析,结果表明该方法对系统状态变化的趋势具有较好的预测性能.  相似文献   

10.
In this letter, we present a new speech hash function based on the non‐negative matrix factorization (NMF) of linear prediction coefficients (LPCs). First, linear prediction analysis is applied to the speech to obtain its LPCs, which represent the frequency shaping attributes of the vocal tract. Then, the NMF is performed on the LPCs to capture the speech's local feature, which is then used for hash vector generation. Experimental results demonstrate the effectiveness of the proposed hash function in terms of discrimination and robustness against various types of content preserving signal processing manipulations.  相似文献   

11.
论文通过提取输入语音的美尔倒谱系数,线性预测倒谱系数及其差分的双重方法,在建模过程中,对原有的矢量量化模型进行改进,形成一种新的连续码字分布的矢量量化模型,并与传统的动态时间规整算法和矢量量化方法比较,进行与文本有关的说话人识别实验,获得了较好的效果。  相似文献   

12.
通信语音干扰效果评估,是指对语音通信系统接收的受扰语音信号进行分析,确定语音信号被干扰程度的技术。准确地评估干扰效果是研制通信对抗设备、评估电子对抗态势以及了解通信质量等活动的重要依据。针对超短波通信干扰系统,提出了基于梅尔频率倒谱系数(MFCC)特征、小波统计特征和感知特征的统计测度,结合最小二乘、反向传播(BP)神经网络以及支持向量回归(SVR)拟合回归模型的评估系统,其预测值和主观评估值的相关系数达到0.9以上,保障了该干扰评估系统的实用性。研究了基于深度学习的无参考评估方法,并利用实测数据验证了其有效性,准确率达到了87%,高于多测度融合评估方法。  相似文献   

13.
光谱解混分析的重要研究内容是计算分析各地物类别成分在混合像素内所占的比例技术。文中以实测高光谱数据为研究对象,针对高光谱数据具有高维度数、严重的光谱混合等特点,基于流形学习中局部线性嵌入(LLE)算法的思想,提出了一种约束最小乘方局部线性加权回归(CLS-LLWR)建模方法。通过4种典型地物的光谱吸收特征差异分析,从它们不同比例组合下的实测混合光谱中选取了不同波段范围,分别对该模型预测覆盖度信息能力进行了验证分析。最后,将CLS-LLWR模型与主成分回归(PCR)和偏最小二乘回归(PLSR)模型,通过计算预测标准误差(SE)进行了对比分析。结果表明,CLS-LLWR模型有较好的预测能力。这为流形学习在高光谱遥感图像信息提取方面进行了有意的探索。  相似文献   

14.
提出了一种在自相关域上,以相关函数值为参数,利用单边自相关序列的线性预测误差去除语音中加性噪声的方法。该方法首先对含噪语音进行单边自相关处理,以语音信号的单边自相关序列替代语音信号序列,进而对该序列进行线性预测分析后,获得线性预测分析系数,并求得线性预测误差。根据误差能量与信号能量的比例关系,确定减因子u,从含噪语音中根据减因子u的大小减去预测误差,即可抑制噪声误差能量。实验表明;上述方法在低信噪比时,仍能较好地保留语音信号的频谱结构,使音质不至于下降。  相似文献   

15.
语音识别HMM中引入帧间相关信息的一种参数化模型   总被引:4,自引:1,他引:3  
杨浩荣  王作英  陆大 《电子学报》1998,26(10):50-54,8
虽然隐马尔可夫模型(HMM)是当前最为流行的语音识别模型,但由于一般都采用了状态输出独立假设,因此存在着不能描述语音现象中时间相关性的固有缺陷,本文提出的新模型对语音状态输出特征矢量序列的静态和动态特性信息分别进行参数化建模,然后将它们结合在一起,由此在基于段长分布的HMM(DDBHMM)中引入了帧间相关信息,这种上引入帧间相关信息的HMM能够更为精确地描述真实的语音现象。本文在给出新模型的框架后  相似文献   

16.
In this article the relevant training aspects for building robust and accurate HMM models for large vocabulary recognition system are discussed and adjusted, namely: speech features, training steps, and the tying options for context dependent (CD) phonemes. As the basis for building HMM models the well known MASPER training scheme is assumed. First the incorporation of the voicing information and its effect on the classical extraction methods like MFCC and PLP will be shown together with the derivative features, where the relative error reductions are up to 50%. Next the suggested enhancement of the standard training procedure by introducing garbled speech models will be presented and tested on real data. As it will be shown it brings more than a 5% drop in the error rate. Finally, the options for tying states of CD phonemes using decision trees and phoneme classification will be adjusted, tested, and explained.  相似文献   

17.
一种高质量的8kb/sACELP语音编码算法及其实时实现   总被引:2,自引:0,他引:2  
刘志勇  唐昆 《电子学报》1997,25(7):72-74
本文介绍了一种编码速率的8kb/s的高质量实时语音编码器,它采用了代数码本激励线性预测(ACELP)的编码方法,并采用高效的码本结构,码本搜索技术和矢量量化技术来获得较高的语音合成质量和较低的算法复杂度,在无需外部RAM和ROM的情况下,该算法已用TMC320C50实时实现并用于一个实时的全双工通信系统,通过信噪比及人耳主观听视实验等性能测试表明,该算法的性能明显优于优于北美的8kb/sVSELP  相似文献   

18.
基于TMS320VC5402的电子语音锁的系统设计   总被引:1,自引:0,他引:1  
通过分析语音特征参数的特点和说话人识别的基本方法,利用DSP的硬件平台,以线性预测倒谱系数为特征参数提取算法以及隐马尔可夫模型为建模算法,实现电子语音锁的系统设计。实验结果表明系统在内部模型数小于10时识别精度高,达到安全保密的要求。  相似文献   

19.
低速率声码器中残差谱的变维矢量量化   总被引:3,自引:0,他引:3  
基于一个基音周期内语音线性预测残差波形,提出了一种简单而有效的LPR谱变维矢量量化(VDVQ)方法,即利用具有固定维数的通用码本对LPR谱幅度形状进行了矢量量化,通用码本和结构化的VQ相组合减少了存储和计算复杂度,产生了高的量化效率,增强了编码语音的感怀质量计算机仿真结果表明,利用该VDVQ技术设计的2.4kb/s语音编码器产生了高质量合成语音。  相似文献   

20.
State-of-the-art automatic speech recognition (ASR) systems follow a well established statistical paradigm, that of parameterization of speech signals (a.k.a. feature extraction) at front-end and likelihood evaluation of feature vectors at back-end. For feature extraction, Mel-frequency cepstral coefficients (MFCC) and perceptual linear prediction (PLP) are the two dominant signal processing methods, which have been used mainly in ASR. Although the effects of both techniques have been analyzed individually, it is not known whether any combination of the two can produce an improvement in the recognition accuracy or not. This paper presents an investigation on the possibility to integrate different types of features such as MFCC, PLP and gravity centroids to improve the performance of ASR in the context of Hindi language. Our experimental results show a significant improvement in case of such few combinations when applied to medium size lexicons in typical field conditions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号