首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
语音识别关键技术研究   总被引:11,自引:0,他引:11  
采用隐马尔可夫模型(HMM)进行语音声学建模是大词汇连续语音识别取得突破性进展最主要的原因之一,HMM本身依赖的某些不合理建模假设和不具有区分性的训练算法正在成为制约语音识别系统未来发展的瓶颈。神经网络依靠权能够进行长时间记忆和知识存储,但对于输入模式的瞬时响应的记忆能力比较差。采用混合HMM/ANN模型对HMM的一些不尽合理的建模假设和训练算法进行了革新。混合模型用神经网络非参数概率模型代替高斯混合器(GM)计算HMM的状态所需要的观测概率。另外对神经网络的结构进行了优化,取得了很好的效果。  相似文献   

2.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.  相似文献   

3.
本文提出了一种基于模糊自适应Hamming网络的连续汉语识别方法,用模糊自适应Hamming网络来估计HMM中的状态观测概率。结合HMM对动态时间序列极强的建模能力和神经网络的分类决策能力来提高语音识别的准确率。通过对非特定人汉语连续词的语音识别实验,证实了该方法的有效性。  相似文献   

4.
研究语音识别率问题,语音信号是一种非平稳信号,含有大量噪声信息,目前大多数识别算法线性理论,难以正确识别语音信号非线性变化过程,识别正确率低。通过将隐马尔可夫模型(HMM)和SVM相结合组成一个混合抗噪语音识别模型(HMM-SVM)。同时用HMM模型对语音信号时序进行建模,并得到待识别语音信号的输出概率,然后将输出概率作为SVM的输入进行学习,得到语音分类信息,最后通过利用HMM-SVM识别结果做出正确识别决策。仿真结果表明,HMM-SVM提高语音识别正确率,尤其在低信噪比环境下,明显改善了语音识别系统的性能。  相似文献   

5.
邓伟  赵荣椿 《自动化学报》2000,26(4):492-498
研究隐马尔可夫模型(HMM)的一种有区分力的训练方法.在多层前向神经网络的 框架中实现了HMM的前向概率计算.基于这一框架,利用偏导数的反向传播计算方法,通 过梯度上升的优化过程来实现互信息的最大化,从而对HMM进行有区分力的训练.这一 训练方法被称之为HMM的反向传播训练方法.此外,还设计了一个用以实现这一训练方 法的在数值计算上具有强鲁棒性的算法.语音识别的实验结果证实了这一训练方法的优越 性.  相似文献   

6.
将隐马尔可夫模型(HMM)与小波神经网络(WNN)相结合,提出了一种基于心音信号的身份识别方法。该方法首先利用HMM对心音信号进行时序建模,并计算出待识别心音信号的输出概率评分;再将此识别概率评分作为小波神经网络的输入,通过小波神经网络将HMM的识别概率值进行非线性映射,获取分类识别信息;最后根据混合模型的识别算法得出识别结果。实验采集80名志愿者的160段心音信号对所提出的方法进行验证,并与GMM模型的识别结果进行了对比,结果表明,所选方法能够有效提高系统的识别性能,达到了比较理想的识别效果。  相似文献   

7.
提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统.在混合模型系统中,多种模型协同工作.ANN负责建模音素发音物理特性,HMM联合语言学模型识别待识语料.这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现.实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率.  相似文献   

8.
黄光球  汪晓海 《计算机工程》2007,33(10):131-133,163
提出了基于BP-HMM模型的网络入侵检测方法,给出了该模型的训练和识别方法.由于纯粹的HMM建立的分类器不能兼顾每个模型对其对应目标有很强的识别能力和模型之间差异性的最大化,因此将BP神经网络集成到HMM框架中,用BP网络为HMM提供状态概率输出.通过BP网络的粗分类,克服了HMM的缺陷,提高了系统的分类识别能力.  相似文献   

9.
本文提出了基于RBF-HMM模型的网络入侵检测方法,给出了该模掣的训练和识别方法.因为HMM模型的分类决策能力和对不确定信息的描述能力不理想,而人工神经网络对动志时间序列的建模能力尚不尽如人意,所以将RBF神经网络集成到HMM框架中,用RBF神经网络为HMM提供状态概牢输出.通过RBF神经网络的粗分类,克服了HMM的缺...  相似文献   

10.
基于循环神经网络的语音识别模型   总被引:5,自引:1,他引:4  
朱小燕  王昱  徐伟 《计算机学报》2001,24(2):213-218
近年来基于隐马尔可夫模型(HMM)的语音识别技术得到了很大发展。然而HMM模型有着一定的局限性,如何克服HMM的一阶假设和独立性假设带来的问题一直是研究讨论的热点,在语音识别中引入神经网络的方法是克服HMM局限性的一条途径。该文将循环神经网络应用于汉语语音识别,修改了原网络模型并提出了相应的训练方法,实验结果表明该模型具有良好的连续信号处理性能,与传统的HMM模型效果相当,新的训练策略能够在提高训练速度的同时,使得模型分类性能有明显提高。  相似文献   

11.
利用隐马尔可夫模型HMM优异的时序建模能力及小波变换可以对信号进行多尺度分析并有效提取信号的局部信息的特点,建立了混合语音识别模型.在语音信号的识别过程中考虑到了信号的非平稳性,采用并行识别的方法分别获取分类信息,根据混合模型的识别算法做出识别决策,减小了系统对环境的依赖性,提高了其自适应能力.仿真实验结果表明,混合模型识别结果比单一HMM模型或小波模型识别结果更佳,提高了整体的识别速度和识别率.  相似文献   

12.
一种基于改进CP网络与HMM相结合的混合音素识别方法   总被引:2,自引:0,他引:2  
提出了一种基于改进对偶传播(CP)神经网络与隐驰尔可夫模型(HMM)相结合的混合音素识别方法.这一方法的特点是用一个具有有指导学习矢量量化(LVQ)和动态节点分配等特性的改进的CP网络生成离散HMM音素识别系统中的码书。因此,用这一方法构造的混合音素识别系统中的码书实际上是一个由有指导LVQ算法训练的具有很强分类能力的高性能分类器,这就意味着在用HMM对语音信号进行建模之前,由码书产生的观测序列中  相似文献   

13.
研究适用于隐马尔可夫模型(HMM)结合多层感知器(MLP)的小词汇量混合语音识别系统的一种简化神经网络结构。利用小词汇量混合语音识别系统中的HMM状态所形成的规则的二维阵列,对状态观测概率进行分解。基于这种利用HMM的二维结构特性的方法,实现了用一种由多个简单的MLP所组成的简化神经网络结构来估计状态观测概率。理论分析和语音识别实验的结果都表明,这种简化神经网络结构在性能上优于Franco等人提出的简化神经网络结构。  相似文献   

14.
一种改进的隐马尔可夫模型在语音识别中的应用   总被引:1,自引:0,他引:1  
提出了一种新的马尔可夫模型——异步隐马尔可夫模型.该模型针对噪音环境下语音识别过程中出现丢失帧的情况,通过增加新的隐藏时间标示变量Ck,估计出实际观察值对应的状态序列,实现对不规则或者不完整采样数据的建模.详细介绍了适合异步HMM的前后向算法以及用于训练的EM算法,并且对转移矩阵的计算进行了优化.最后通过实验仿真,分别使用经典HMM和异步HMM对相同的随机抽取帧的语音数据进行识别,识别结果显示在抽取帧相同情况下异步HMM比经典HMM的识别错误率低.  相似文献   

15.
基于混合模型HMM/RBF的数字语音识别   总被引:5,自引:0,他引:5  
王朋  陈树中 《计算机工程》2002,28(12):136-138
提出一种离散隐马尔科夫模型(hidden Markov model,HMM)和径向基函数(radial basis function,RBF)神经网络相结合应用于汉语数码语音识别(Mmandarin Ddigit Speech Recognition,MDSR)的方法,同时采用了一系列改进方法,使汉语数码语音的识别率达到了99.7%。  相似文献   

16.
针对语音识别系统对抗环境噪声的实际需求,提出一种二次组合抗噪技术,研究并设计了一种以数字信号处理器(DSP)为硬件平台,以隐马尔可夫模型(HMM)为算法的抗噪声嵌入式语音识别系统.DSP采用型号为TMS320VC5509A的芯片,配以外围硬件电路构成语音识别系统的硬件平台.软件设计以离散隐马尔可夫模型(DHMM)为识别算法进行编程,系统软件主要有识别、训练、学习和USB四个主要模块.实验结果表明:基于二次组合去噪技术的语音识别系统有更好的抗噪声效果.  相似文献   

17.
研究了利用隐马尔可夫模型(HMM)对动态语音模式进行时间归一化的方法。引入了借助于HMM对语音基元观测序列所做的一种分段,这种分段被称之为语音基元观测序列的HMM全状态分段,并且定义了HMM全状态分段的符合度。根据HMM全状态分段的符合度确定了语音基元观测序列的最优HMM全状态分段,通过最优HMM全状态分段把语音基元观测序列转换为固定维数的向量,从而实现了动态语音模式的时间归一化。将动态语音模式的这一时间归一化方法在结合HMM和人工神经网络(ANN)的混合语音识别方法中进行了应用,实验结果表明这一时间归一化方法的有效性。  相似文献   

18.
Context in time series is one of the most useful and interesting characteristics for machine learning. In some cases, the dynamic characteristic would be the only basis for achieving a possible classification. A novel neural network, which is named "a recurrent log-linearized Gaussian mixture network (R-LLGMN)," is proposed in this paper for classification of time series. The structure of this network is based on a hidden Markov model (HMM), which has been well developed in the area of speech recognition. R-LLGMN can as well be interpreted as an extension of a probabilistic neural network using a log-linearized Gaussian mixture model, in which recurrent connections have been incorporated to make temporal information in use. Some simulation experiments are carried out to compare R-LLGMN with the traditional estimator of HMM as classifiers, and finally, pattern classification experiments for EEG signals are conducted. It is indicated from these experiments that R-LLGMN can successfully classify not only artificial data but real biological data such as EEG signals.  相似文献   

19.
This paper presents an artificial neural network (ANN) for speaker-independent isolated word speech recognition. The network consists of three subnets in concatenation. The static information within one frame of speech signal is processed in the probabilistic mapping subnet that converts an input vector of acoustic features into a probability vector whose components are estimated probabilities of the feature vector belonging to the phonetic classes that constitute the words in the vocabulary. The dynamics capturing subnet computes the first-order cross correlation between the components of the probability vectors to serve as the discriminative feature derived from the interframe temporal information of the speech signal. These dynamic features are passed for decision-making to the classification subnet, which is a multilayer perceptron (MLP). The architecture of these three subnets are described, and the associated adaptive learning algorithms are derived. The recognition results for a subset of the DARPA TIMIT speech database are reported. The correct recognition rate of the proposed ANN system is 95.5%, whereas that of the best of continuous hidden Markov model (HMM)-based systems is only 91.0%  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号