期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

语音识别关键技术研究 总被引：11，自引：0，他引：11

息晓静林坤辉周昌乐蔡骏《计算机工程与应用》2006,42(11):66-69,115

采用隐马尔可夫模型(HMM)进行语音声学建模是大词汇连续语音识别取得突破性进展最主要的原因之一,HMM本身依赖的某些不合理建模假设和不具有区分性的训练算法正在成为制约语音识别系统未来发展的瓶颈。神经网络依靠权能够进行长时间记忆和知识存储,但对于输入模式的瞬时响应的记忆能力比较差。采用混合HMM/ANN模型对HMM的一些不尽合理的建模假设和训练算法进行了革新。混合模型用神经网络非参数概率模型代替高斯混合器(GM)计算HMM的状态所需要的观测概率。另外对神经网络的结构进行了优化,取得了很好的效果。相似文献

2.

基于HMM和遗传神经网络的语音识别系统 总被引：1，自引：0，他引：1

包亚萍郑骏武晓光《计算机工程与科学》2011,33(4):139

本文提出了一种基于隐马尔可夫(HMM)和遗传算法优化的反向传播网络(GA-BP)的混合模型语音识别方法。该方法首先利用HMM对语音信号进行时序建模,并计算出语音对HMM的输出概率的评分,将得到的概率评分作为优化后反向传播网络的输入,得到分类识别信息,最后根据混合模型的识别算法作出识别决策。通过Matlab软件对已有的样本数据进行训练和测试。仿真结果表明,由于设计充分利用了HMM时间建模能力强和GA-BP神经网络分类能力强等特点,该混合模型比单纯的HMM具有更强的抗噪性,克服了神经网络的局部最优问题,大大提高了识别的速度,明显改善了语音识别系统的性能。相似文献

3.

基于BIC的语音识别模型压缩算法

邹灿李柏岩《计算机与现代化》2014,(6):71-73,78

当对HMM(Hidden Markov Model,隐马尔科夫模型)语音模型进行GMM(Gaussian Mixture Model,混合高斯模型)区分训练增加组件时,语音模型的识别率会随着GMM的组件增多而增加,模型的大小也会增加,这就造成了语音模型的臃肿。而在移动端使用本地语音模型进行识别时,存放一个几百兆的模型很不合适。针对上述问题,本文提出将一个GMM组件数较多的语音模型利用BIC准则压缩到指定的组件数,从而在模型大小合适的情况下尽量保证模型的识别率。实验结果表明,使用本方法进行压缩之后的语音识别率比未压缩的相同组件数的语音识别模型的识别率要高。相似文献

4.

适用于DSP实现的CDHMM口令式语音识别系统

王海青戴蓓倩李辉吴卅建《计算机工程与应用》2004,40(6):111-114

文章给出了一种适于DSP实现的基于连续隐马尔可夫模型(CDHMM)的特定人口令式语音识别系统。在分析系统结构及CDHMM模型训练算法的基础上,讨论了该算法在DSP上实现的难点和相关技术,对降低训练算法的计算量和数据存储量进行了较深入的研究,使得采用较少的语音数据训练口令的HMM模型,也能获得较好的识别结果,为通用的口令式语音识别系统在DSP芯片上实现提供了较为重要的技术途径。相似文献

5.

基于禁止搜索的离散隐马尔可夫模型优化

梅晓丹孙圣和《模式识别与人工智能》2001,14(2)

隐马尔可夫模型(HMM,Hdden Markov Model)是语音识别中广泛采用的鲁棒性统计方法.本文采用禁止搜索(TS,Tabu Search)算法训练HMM参数,提出了基于禁止搜索的隐马尔可夫模型(TS-HMM)算法.该算法可以使搜索最优模型参数的过程达到全局优化.仿真结果表明与传统的前向-后向算法相比,TS-HMM算法具有更好的性能,且能够达到全局优化. 相似文献

6.

基于增益的隐马尔科夫模型的文本组块分析 总被引：7，自引：0，他引：7

李珩杨峰朱靖波姚天顺《计算机科学》2004,31(2):152-154

本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法，用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM)，构造增益的隐马尔科夫模型(Transductive HMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程，只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示，该方法在文本组块分析方面是有效的。相似文献

7.

一种基于HMM和ANN的语音情感识别分类器 总被引：2，自引：0，他引：2

罗毅《微计算机信息》2007,23(34):218-219,296

针对在语音情感识别中孤立使用隐马尔科夫模型（HMM）固有的分类特性较差的缺点，本文提出了利用隐马尔科夫模型和径向基函数神经网络（RBF）对惊奇，愤怒，喜悦，悲伤，厌恶5种语音情感进行识别的方法。该方法借助HMM规整语音情感特征向量，并用RBF作为最终的决策分类器。实验结果表明在本文的实验条件下此方法和孤立HMM相比具有更好的性能，厌恶的识别率有了较大改进。相似文献

8.

基于数据模拟和HMM自适应的电话语音识别研究

左国玉刘文举阮晓钢《计算机工程与应用》2003,39(27):29-31,129

该文研究了基于数据模拟方法和HMM(隐马尔科夫模型)自适应的电话信道条件下语音识别问题。模拟数据模仿了纯净语音在不同电话信道条件下的语音行为。各基线系统的HMM模型分别由纯净语音和模拟语音训练而成。语音识别实验评估了各基线系统HMM模型在采用MLLR算法(最大似然线性回归)做无监督式自适应前后的识别性能。实验证明,由纯净语音转换生成的模拟语音有效地减小了训练语音和测试语音声学性质的不匹配,很大程度上提高了电话语音识别率。基线模型的自适应结果显示模拟数据的自适应性能比纯净语音自适应的性能最大提高达到9.8%,表明了电话语音识别性能的进一步改善和系统稳健性的提高。相似文献

9.

基于双因子高斯过程动态模型的声道谱转换方法

孙新建张雄伟杨吉斌曹铁勇钟新毅《自动化学报》2014,40(6):1198-1207

针对作者已经提出的双因子高斯过程隐变量模型（Two-factor Gaussian process latent variable model,TF-GPLVM）用于语音转换时未考虑语音的动态特征,并且模型训练时需要估计的参数较多的问题,提出引入隐马尔科夫模型（Hidden Markov model,HMM）对语音动态特征进行建模,并利用HMM隐状态对各帧语音进行关于语义内容的概率软分类,建立了分离精度更高、运算负荷较小的双因子高斯过程动态模型（Two-factor Gaussian process dynamic model,TF-GPDM）.基于此模型,设计了一种全新的基于说话人特征替换的语音声道谱转换方案.主、客观实验结果表明,无论是与传统的统计映射和频率弯折转换方法相比,还是与双因子高斯过程隐变量模型方法相比,本文方法都获得了语音质量和转换相似度的提升,以及两项性能的更佳平衡. 相似文献

10.

一种用于说话人性别鉴定的混合算法

黄关维《现代计算机》2008,(8)

提出一种用于语音识别的性别鉴定的算法,算法融合基音频率鉴定法和隐马尔可夫模型(HMM)鉴定法的混合算法.循环幅度差函数用于检测基音频率,HMM鉴定法建立男女两个HMM,用Viterbi算法将输入语音匹配到这两个模型,用匹配结果鉴定性别,基于这两种方法设计了一个线性分类器,在TIMIT、HTIMIT和南方口音语料库上采用1s长的语音片段进行测试,达到98.54%的正确率.将该算法应用于连续语音识别前端,较大提高了识别精度. 相似文献

11.

A Constrained Line Search Optimization Method for Discriminative Training of HMMs

Liu P. Liu C. Jiang H. Soong F. Wang R.-H. 《IEEE transactions on audio, speech, and language processing》2008,16(5):900-909

In this paper, we propose a novel optimization algorithm called constrained line search (CLS) for discriminative training (DT) of Gaussian mixture continuous density hidden Markov model (CDHMM) in speech recognition. The CLS method is formulated under a general framework for optimizing any discriminative objective functions including maximum mutual information (MMI), minimum classification error (MCE), minimum phone error (MPE)/minimum word error (MWE), etc. In this method, discriminative training of HMM is first cast as a constrained optimization problem, where Kullback-Leibler divergence (KLD) between models is explicitly imposed as a constraint during optimization. Based upon the idea of line search, we show that a simple formula of HMM parameters can be found by constraining the KLD between HMM of two successive iterations in an quadratic form. The proposed CLS method can be applied to optimize all model parameters in Gaussian mixture CDHMMs, including means, covariances, and mixture weights. We have investigated the proposed CLS approach on several benchmark speech recognition databases, including TIDIGITS, Resource Management (RM), and Switchboard. Experimental results show that the new CLS optimization method consistently outperforms the conventional EBW method in both recognition performance and convergence behavior. 相似文献

12.

高斯混合分布之间K-L散度的近似计算 总被引：2，自引：0，他引：2

王欢良韩纪庆郑铁然《自动化学报》2008,34(5):529-534

高斯混合分布之间的 K-L 散度没有闭式解, 通常采用其上界来近似. 对于具有相同高斯数的混合分布, 基于相对熵链规则推导其 K-L 散度上界, 提出一种更紧上界的计算方法. 为计算具有不同高斯数的混合分布之间的 K-L 散度上界, 提出基于最佳高斯分量复制的方法. 在中文声韵母声学模型上的实验结果显示, 所提出方法可更好地近似等高斯数的混合分布之间的 K-L 散度, 并能有效处理具有不同高斯数的混合分布. 相似文献

13.

Large margin hidden Markov models for speech recognition 总被引：1，自引：0，他引：1

Hui Jiang Xinwei Li Chaojun Liu 《IEEE transactions on audio, speech, and language processing》2006,14(5):1584-1595

In this paper, motivated by large margin classifiers in machine learning, we propose a novel method to estimate continuous-density hidden Markov model (CDHMM) for speech recognition according to the principle of maximizing the minimum multiclass separation margin. The approach is named large margin HMM. First, we show this type of large margin HMM estimation problem can be formulated as a constrained minimax optimization problem. Second, we propose to solve this constrained minimax optimization problem by using a penalized gradient descent algorithm, where the original objective function, i.e., minimum margin, is approximated by a differentiable function and the constraints are cast as penalty terms in the objective function. The new training method is evaluated in the speaker-independent isolated E-set recognition and the TIDIGITS connected digit string recognition tasks. Experimental results clearly show that the large margin HMMs consistently outperform the conventional HMM training methods. It has been consistently observed that the large margin training method yields significant recognition error rate reduction even on top of some popular discriminative training methods. 相似文献

14.

隐马尔可夫模型的一种有区分力的反向传播训练方法

邓伟赵荣椿《自动化学报》2000,26(4):492-498

研究隐马尔可夫模型(HMM)的一种有区分力的训练方法.在多层前向神经网络的框架中实现了HMM的前向概率计算.基于这一框架,利用偏导数的反向传播计算方法,通过梯度上升的优化过程来实现互信息的最大化,从而对HMM进行有区分力的训练.这一训练方法被称之为HMM的反向传播训练方法.此外,还设计了一个用以实现这一训练方法的在数值计算上具有强鲁棒性的算法.语音识别的实验结果证实了这一训练方法的优越性. 相似文献

15.

一种基于区分性准则的模型结构优化方法

鄢志杰胡郁王仁华《中文信息学报》2008,22(2):99-105

本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前提下降低所需要的模型参数。相对于传统的基于似然度及复杂度惩罚的模型结构优化准则来讲,基于区分性准则的优化方法能够更直接地提高模型的区分度和鉴别力,从而得到更好的识别效果。在一个面向嵌入式系统的中文连续数字串识别任务上的实验结果证明,基于最大互信息量准则的模型结构优化能够得到比传统的、基于模型似然度及复杂度的方法更好的识别效果。相似文献

16.

Modelling of the interframe dependence in an HMM using conditional Gaussian mixtures

Ji Ming F.Jack Smith 《Computer Speech and Language》1996,10(4):229-247

This paper investigates the modelling of the interframe dependence in a hidden Markov model (HMM) for speech recognition. First, a new observation model, assuming dependence on multiple previous frames, is proposed. This model represents such a dependence structure with a weighted mixture of a set of first-order conditional Gaussian densities, each mixture component accounting for a specific conditional frame. Next, an optimization in choosing the conditional frames/segment is performed in both training and recognition, thereby helping to remove the mismatch of the conditional segments due to different observation histories. An EM (Expectation–Maximization) iteration algorithm is developed for the estimation of the model parameters and for the optimization over the dependence structure. Experimental comparisons on a speaker-independent E-set database show that the new model, without optimization on the dependence structure, achieves better performance than the standard HMM, the bigram HMM and the linear-predictive HMM, all in comparable or smaller parameter sizes. The optimization over the dependence structure leads to further improvement in the performance. 相似文献

17.

基于一种改进禁忌搜索算法优化离散隐马尔可夫模型 总被引：1，自引：0，他引：1

刘江华陈佳品程君实《计算机工程与应用》2003,39(20):92-94

隐马尔可夫模型(HMM,HiddenMarkovModel)是语音识别和手势识别中广泛使用的统计模式识别方法。文章提出了一种改进的禁忌搜索(ITS,ImprovedTabuSearch)优化HMM的参数。传统的TabuSearch(TS)与局部搜索算法(极大似然法)交替进行,从而加快了算法的收敛速度,并得到优化解。分别用TS及ITS训练隐马尔可夫模型进行动态手势识别。结果表明ITS可获得更高的识别率,且能达到全局优化。相似文献

18.

基于区分性准则的Bottleneck特征及其在LVCSR中的应用

刘迪源郭武《数据采集与处理》2016,31(2):331-337

基于深层神经网络中间层的Bottleneck(BN)特征由于可以采用传统的混合高斯模型-隐马尔可夫建模(Gaussian mixture model-hidden Markov model, GMM-HMM),在大规模连续语音识别中获得了广泛的应用。为了提取区分性的BN特征,本文提出在使用传统的BN特征训练好GMM-HMM模型之后,利用最小音素错误率（Minimum phone error, MPE）准则来优化BN网络参数以及GMM-HMM模型参数。该算法相对于其他区分性训练算法而言,采用的是全部数据作为一个大的数据包,而不是小的包方式来训练深度神经网络,从而可以大大加快训练速度。实验结果表明,优化后的BN特征提取网络比传统方法能获得9%的相对词错误率下降。相似文献

19.

基于改进粒子群算法的隐马尔可夫模型训练

朱嘉瑜高鹰《计算机工程与设计》2010,31(1)

针对隐马尔可夫模型传统训练算法易收敛于局部极值的问题,提出一种带极值扰动的自适应调整惯性权重和加速系数的粒子群算法,将改进后的粒子群优化算法引入到隐马尔可夫模型的训练中,分别对隐马尔可夫模型的状态数与参数进优化.通过对手写数字识别的实验说明,提出的基于改进粒子群优化算法的隐马尔可夫模型训练算法与传统隐马尔可夫模型训练算法Baum-Welch算法相比,能有效地跳出局部极值,从而使训练后的隐马尔可夫模型具有较高的识别能力. 相似文献

20.

Stereo hidden Markov modeling for noise robust speech recognition

Xiaodong Cui Mohamed Afify Yuqing Gao Bowen Zhou 《Computer Speech and Language》2013,27(2):407-419

This paper investigates a noise robust technique for automatic speech recognition which exploits hidden Markov modeling of stereo speech features from clean and noisy channels. The HMM trained this way, referred to as stereo HMM, has in each state a Gaussian mixture model (GMM) with a joint distribution of both clean and noisy speech features. Given the noisy speech input, the stereo HMM gives rise to a two-pass compensation and decoding process where MMSE denoising based on N-best hypotheses is first performed and followed by decoding the denoised speech in a reduced search space on lattice. Compared to the feature space GMM-based denoising approaches, the stereo HMM is advantageous as it has finer-grained noise compensation and makes use of information of the whole noisy feature sequence for the prediction of each individual clean feature. Experiments on large vocabulary spontaneous speech from speech-to-speech translation applications show that the proposed technique yields superior performance than its feature space counterpart in noisy conditions while still maintaining decent performance in clean conditions. 相似文献