首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 153 毫秒
1.
本文提出了一种基于模糊自适应Hamming网络的连续汉语识别方法,用模糊自适应Hamming网络来估计HMM中的状态观测概率。结合HMM对动态时间序列极强的建模能力和神经网络的分类决策能力来提高语音识别的准确率。通过对非特定人汉语连续词的语音识别实验,证实了该方法的有效性。  相似文献   

2.
研究适用于隐马尔可夫模型(HMM)结合多层感知器(MLP)的小词汇量混合语音识别系统的一种简化神经网络结构。利用小词汇量混合语音识别系统中的HMM状态所形成的规则的二维阵列,对状态观测概率进行分解。基于这种利用HMM的二维结构特性的方法,实现了用一种由多个简单的MLP所组成的简化神经网络结构来估计状态观测概率。理论分析和语音识别实验的结果都表明,这种简化神经网络结构在性能上优于Franco等人提出的简化神经网络结构。  相似文献   

3.
近年来在大词汇连续语音识别的研究取得了长足的进步,隐马尔柯夫模型(HMM)是连续语音识别的核心部分。但是HMM对语音信号的描述不完善,为此人们提出了很多替代模型,其中一类将语音信号描述为长度随机的特征矢量序列,称为随机分段模型(Stochastic Segment Models),简称为分段模型(SM)。该文将首先阐述分段模型的原理,并将分段模型和隐马尔柯夫模型进行比较,其次给出基于分段模型的识别和模型训练算法,最后给出实验结果并进行了讨论。  相似文献   

4.
基于自编码器和隐马尔可夫模型的时间序列异常检测方法   总被引:1,自引:0,他引:1  
霍纬纲  王慧芳 《计算机应用》2020,40(5):1329-1334
针对已有基于隐马尔可夫模型(HMM)的时间序列异常检测模型的符号化方法不能很好地表征原始时间序列的问题,提出了一种基于自编码器和HMM的时间序列异常检测方法(AHMM-AD)。首先,通过滑动窗口对时间序列样本进行分段,按照分段位置形成若干时间序列分段样本集,由正常时间序列上不同位置的分段样本集训练各个分段的自编码器;然后,利用自编码器得到每个分段时间序列样本的低维特征表示,通过对低维特征表示向量集的K-means聚类处理,实现时间序列样本集的符号化;最后,由正常时间序列的符号序列集生成HMM,根据待测样本在已建HMM上的输出概率值进行异常检测。在多个公共基准数据集上的实验结果显示,AHMM-AD比已有的基于HMM的时间序列异常检测模型在精确度、召回率和F1值分别平均提高了0.172、0.477、0.313,比基于autoencoder的时间序列异常检测模型,在这三方面分别平均提高了0.108、0.450、0.319。实验结果表明,AHMM-AD方法能够提取时间序列中的非线性特征,解决已有HMM建模时间序列符号化过程中不能很好表征时间序列的问题,并在时间序列异常检测性能上也有显著提升。  相似文献   

5.
基于HTK的维吾尔语连续语音声学建模   总被引:3,自引:1,他引:2  
维吾尔语属于阿勒泰语系突厥语族,是黏着性语言。本文根据维吾尔语的特点,分析设计了维吾尔语语音识别系统的总体结构,讨论了维吾尔语最佳识别基元的选择方法,提出建立基于决策树聚类的上下文相关模型,并采用混合高斯分布(GMD)拟合观测概率分布,优化维吾尔语连续语音中HMM模型系统以提高识别性能。最后给出实验对比,得出结论,为今后维吾尔语连续语音识别研究提供依据。  相似文献   

6.
维吾尔语广播新闻连续语音敏感词检索系统   总被引:1,自引:0,他引:1  
首先介绍语音信号来源于新疆人民广播电台维吾尔语新闻的敏感词语音语料库的建设。然后用该语料库进行基于HMM的模型训练。模型训练中详细介绍识别基元端点检测、特征提取、矢量量化、码本构建、HMM模型训练过程和结果。最后用该语料库和HMM训练模型对维吾尔语广播新闻连续语音信号进行敏感词检索,并对检索结果进行分析。  相似文献   

7.
针对基于隐马尔科夫(HMM,Hidden Markov Model)的MAP和MMSE两种语音增强算法计算量大且前者不能处理非平稳噪声的问题,借鉴语音分离方法,提出了一种语音分离与HMM相结合的语音增强算法。该算法采用适合处理非平稳噪声的多状态多混合单元HMM,对带噪语音在语音模型和噪声模型下的混合状态进行解码,结合语音分离方法中的最大模型理论进行语音估计,避免了迭代过程和计算量特别大的公式计算,减少了计算复杂度。实验表明,该算法能够有效地去除平稳噪声和非平稳噪声,且感知评价指标PESQ 的得分有明显提高,算法时间也得到有效控制。  相似文献   

8.
基于HMM和遗传神经网络的语音识别系统   总被引:1,自引:0,他引:1  
本文提出了一种基于隐马尔可夫(HMM)和遗传算法优化的反向传播网络(GA-BP)的混合模型语音识别方法。该方法首先利用HMM对语音信号进行时序建模,并计算出语音对HMM的输出概率的评分,将得到的概率评分作为优化后反向传播网络的输入,得到分类识别信息,最后根据混合模型的识别算法作出识别决策。通过Matlab软件对已有的样本数据进行训练和测试。仿真结果表明,由于设计充分利用了HMM时间建模能力强和GA-BP神经网络分类能力强等特点,该混合模型比单纯的HMM具有更强的抗噪性,克服了神经网络的局部最优问题,大大提高了识别的速度,明显改善了语音识别系统的性能。  相似文献   

9.
基于SCHMM非特定人关键词检出语音识别系统   总被引:1,自引:0,他引:1  
乔跃刚  赵铁军  李生  朱莉 《计算机应用》2005,25(Z1):295-296
设计了一个基于半连续隐马尔可夫模型(SCHMM)以音节为基元的非特定人汉语小词表关键词确认语音识别系统.系统采用类似于Baum_Welch算法对VQ码书和HMM参数一起优化得到可靠的声学模型,并通过利用基于前向-后向搜索策略,来充分利用上下文相关信息,使关键词检出率在每个词每小时虚警率为10时已达到93%以上.还分析了码书大小对系统识别率的影响,并提出了以音节模型归一化算术均值作为关键词置信度的语音验证策略.  相似文献   

10.
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别   总被引:1,自引:0,他引:1  
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型.WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM).大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%.  相似文献   

11.
This paper discusses the use of an integrated HMM/NN classifier for speech recognition. The proposed classifier combines the time normalization property of the HMM classifier with the superior discriminative ability of the neural net (NN) classifier. Speech signals display a strong time varying characteristic. Although the neural net has been successful in many classification problems, its success (compared to HMM) is secondary to HMM in the field of speech recognition. The main reason is the lack of time normalization characteristics of most neural net structures (time-delay neural net is one notable exception but its structure is very complex). In the proposed integrated hybrid HMM/NN classifier, a left-to-right HMM module is used first to segment the observation sequence of every exemplar into a fixed number of states. Subsequently, all the frames belonging to the same state are replaced by one average frame. Thus, every exemplar, irrespective of its time scale variation, is transformed into a fixed number of frames, i.e., a static pattern. The multilayer perceptron (MLP) neural net is then used as the classifier for these time normalized exemplars. Some experimental results using telephone speech databases are presented to demonstrate the potential of this hybrid integrated classifier.  相似文献   

12.
隐马尔可夫模型(Hidden Markov Model,HMM)是一种有效的时序信号建模方法,已广泛用于语音识别、文字识别等领域,近年来也被用于人的行为识别。人的行为序列是一种特殊的时序信号,每类行为往往包含若干帧关键姿势。利用行为序列的这个特点,提出了AdaBoost-EHMM(AdaBoost-Exemplar-based HMM)算法,并将该算法应用于行为识别中。利用AdaBoost的特征选择方法将行为序列中的典型样本逐个选择出来作为HMM观测概率模型的均值,之后融合多级分类器进行行为识别。实验结果证明AdaBoost-EHMM算法在保证算法收敛的同时提高了识别率。  相似文献   

13.
一种基于改进CP网络与HMM相结合的混合音素识别方法   总被引:2,自引:0,他引:2  
提出了一种基于改进对偶传播(CP)神经网络与隐驰尔可夫模型(HMM)相结合的混合音素识别方法.这一方法的特点是用一个具有有指导学习矢量量化(LVQ)和动态节点分配等特性的改进的CP网络生成离散HMM音素识别系统中的码书。因此,用这一方法构造的混合音素识别系统中的码书实际上是一个由有指导LVQ算法训练的具有很强分类能力的高性能分类器,这就意味着在用HMM对语音信号进行建模之前,由码书产生的观测序列中  相似文献   

14.
In this paper we report our recent research whose goal is to improve the performance of a novel speech recognizer based on an underlying statistical hidden dynamic model of phonetic reduction in the production of conversational speech. We have developed a path-stack search algorithm which efficiently computes the likelihood of any observation utterance while optimizing the dynamic regimes in the speech model. The effectiveness of the algorithm is tested on the speech data in the Switchboard corpus, in which the optimized dynamic regimes computed from the algorithm are compared with those from exhaustive search. We also present speech recognition results on the Switchboard corpus that demonstrate improvements of the recognizer’s performance compared with the use of the dynamic regimes heuristically set from the phone segmentation by a state-of-the-art hidden Markov model (HMM) system.  相似文献   

15.
Most of the contemporary speech recognition systems exploit complex algorithms based on Hidden Markov Models (HMMs) to achieve high accuracy. However, in some cases rich computational resources are not available, and even isolated words recognition becomes challenging task. In this paper, we present two ways to simplify scoring in HMM-based speech recognition in order to reduce its computational complexity. We focus on core HMM procedure—forward algorithm, which is used to find the probability of generating observation sequence by given HMM, applying methods of dynamic programming. All proposed approaches were tested on Russian words recognition and the results were compared with those demonstrated by conventional forward algorithm.  相似文献   

16.
基于贝叶斯方法的鲁棒语音切分   总被引:1,自引:0,他引:1  
在基于隐马尔科夫模型的语音切分基础上,融合了不受噪声干扰的先验切分模型,提出了基于贝叶斯方法的语间切分方法。在贝叶斯切分方法的框架内,作者首先对语音序列进行了变换,将由切分点构成的序列变为由音节长度构成的序列。然后,假设音节长度序列符合一阶马尔科夫过程,经过归一化处理后,求出了切分的先验概率公式,得到了贝叶斯方法的切分模型。在噪声环境下的实验证明,由于切分模型独立于噪声,对在噪声环境下声学模型的失配提供了很好的补偿,使得语音切分的鲁棒性大大增加。  相似文献   

17.
This paper presents a real-time speech-driven talking face system which provides low computational complexity and smoothly visual sense. A novel embedded confusable system is proposed to generate an efficient phoneme-viseme mapping table which is constructed by phoneme grouping using Houtgast similarity approach based on the results of viseme similarity estimation using histogram distance, according to the concept of viseme visually ambiguous. The generated mapping table can simplify the mapping problem and promote viseme classification accuracy. The implemented real time speech-driven talking face system includes: 1) speech signal processing, including SNR-aware speech enhancement for noise reduction and ICA-based feature set extractions for robust acoustic feature vectors; 2) recognition network processing, HMM and MCSVM are combined as a recognition network approach for phoneme recognition and viseme classification, which HMM is good at dealing with sequential inputs, while MCSVM shows superior performance in classifying with good generalization properties, especially for limited samples. The phoneme-viseme mapping table is used for MCSVM to classify the observation sequence of HMM results, which the viseme class is belong to; 3) visual processing, arranges lip shape image of visemes in time sequence, and presents more authenticity using a dynamic alpha blending with different alpha value settings. Presented by the experiments, the used speech signal processing with noise speech comparing with clean speech, could gain 1.1 % (16.7 % to 15.6 %) and 4.8 % (30.4 % to 35.2 %) accuracy rate improvements in PER and WER, respectively. For viseme classification, the error rate is decreased from 19.22 % to 9.37 %. Last, we simulated a GSM communication between mobile phone and PC for visual quality rating and speech driven feeling using mean opinion score. Therefore, our method reduces the number of visemes and lip shape images by confusable sets and enables real-time operation.  相似文献   

18.
基于HMM模型的语音单元边界的自动切分   总被引:1,自引:0,他引:1  
基于隐尔马可夫模型(HMM)的强制对齐方法被用于文语转换系统(TTS)语音单元边界切分.为提高切分准确性,本文对HMM模型的特征选择,模型参数和模型聚类进行优化.实验表明:12维静态Mel频率倒谱系数(MFCC)是最优的语音特征;HMM模型中的状态模型采用单高斯;对于特定说话人的HMM模型,使用分类与衰退树(CART)聚类生成的绑定状态模型个数在3 000左右最优.在英文语音库中音素边界切分的实验中,切分准确率从模型优化前的77.3%提高到85.4%.  相似文献   

19.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号