首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 71 毫秒
1.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。  相似文献   

2.
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别   总被引:1,自引:0,他引:1  
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型.WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM).大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%.  相似文献   

3.
近年来,由于动态贝叶斯网络(DBN)相对于传统的隐马尔可夫模型(HMM)更具可解释性、可分解性以及可扩展性,基于DBN的语音识别引起学者们越来越多的关注.但是,目前关于基于DBN的语音识别的研究主要集中在孤立语音识别上,连续语音识别的框架和识别算法还远没有HMM成熟和灵活.为了解决基于DBN的连续语音识别的灵活性和可扩展性,将在基于HMM的连续语音识别中很好地解决了上述问题的Token传递模型加以修改,使之适用于DBN.在该模型基础上,为基于DBN的连续语音识别提出了一个基本框架,并在此框架下提出了一个新的独立于上层语言模型的识别算法.还介绍了作者开发的一套基于该框架的可用于连续语音识别及其他时序系统的工具包DTK.  相似文献   

4.
构建了一种新的基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)的异步整词-发音特征语音识别模型AWA-DBN(每个词由其发音特征的运动来描述),定义了各发音特征节点及异步检查节点的条件概率分布。在标准数字语音库Aurora5.0上的语音识别实验表明,与整词-状态DBN(WS-DBN,每个词由固定个数的整词状态构成)和整词-音素DBN(WP-DBN,每个词由其对应的音素序列构成)模型相比,WS-DBN模型虽然具有最高的识别率,但其只适用于小词汇量孤立词语音识别,AWA-DBN和WP-DBN可以为大词汇量连续语音建模,而AWA-DBN模型比WP-DBN模型具有更高的语音识别率和系统鲁棒性。  相似文献   

5.
基于动态贝叶斯网络的多Agent交互的模型表示   总被引:4,自引:0,他引:4  
动态贝叶斯网络(Dynamic Baycsian Networks,DBNs)是对具有随机过程性质的不确定性问题进行建模和处理的一个有力工具。该文将Agents技术和DBNs相结合来对两个以上的人的行为进行建模。提出一种分解和合并的方法来解决两个以上的Agents构成的DBNs的模型表示在计算上的难以处理性。同时还提高了模型的表示能力,且能表示变量之间互为因果的关系。  相似文献   

6.
基于动态贝叶斯网络的听视觉融合情感识别   总被引:1,自引:0,他引:1  
在多媒体领域的研究中,对听视觉情感识别,如何融合听视觉情感信息是关键问题.传统的融合方法采用状态同步多流隐马尔可夫模型(Syn_AVHMM),但忽略了音视频情感信息之间的异步关系,从而影响识别结果.为了对听视觉情感信息之间的关联和异步关系进行更准确的描述,提出了一种听视觉状态可以异步,加入异步程度可控的多流动态贝叶斯网络情感识别模型(Asy_DBN),并在 eNERFACE'05 听视觉情感数据库上进行了情感识别实验.实验结果表明,通过调整听视觉状态流之间的异步约束,Asy-DBN 模型可以得到最好的识别结果,六种情感的平均识别率比马尔可夫模型高出 9.88%,为实际应用提供了依据.  相似文献   

7.
基于动态贝叶斯网络的威胁估计研究   总被引:1,自引:0,他引:1  
威胁估计是基于客观事实和规则的因果推理判断,而贝叶斯网络提供了一种自然的表示因果关系的手段.通过对威胁估计过程的理解,全面分析了影响威胁等级的评估参数,建立了威胁估计的贝叶斯网络模型,并采用动态贝叶斯网络推理方法进行威胁估计.实例仿真结果验证了该方法的实用性和有效性.  相似文献   

8.
在构建高层次攻击场景和处理复杂攻击时,入侵检测技术难以有效察觉入侵者的意图、识别攻击间的语义以及预测下一步攻击。为此,针对网络复杂攻击过程中的不确定性,提出一种基于动态贝叶斯网络的入侵意图识别方法,采用动态贝叶斯有向无环图实时表述攻击行为、意图与攻击目标之间的关联,应用概率推理方法预测入侵者的下一步攻击。实验结果反映入侵者的意图在入侵过程中的变化规律,验证该方法的有效性。  相似文献   

9.
吴俊伟  何良华  方钰 《计算机应用》2008,28(12):3102-3104
为了帮助社交网中新成员寻找与之最为合适的社交圈,尝试采用动态贝叶斯网(DBN)理论解决社交网分析应用中成员(节点)与社交圈(集合)的匹配问题。将圈内成员个人的多项兴趣爱好程度作为描述社交圈基本属性的特征向量,对每一类圈子建立了带有辅助信息形式的DBN模型,求解最大输出概率即为最佳匹配对象。结果表明,在客观测试和主观评价两方面,该模型都收到了较为满意的结果。  相似文献   

10.
基于贝叶斯方法的鲁棒语音切分   总被引:1,自引:0,他引:1  
在基于隐马尔科夫模型的语音切分基础上,融合了不受噪声干扰的先验切分模型,提出了基于贝叶斯方法的语间切分方法。在贝叶斯切分方法的框架内,作者首先对语音序列进行了变换,将由切分点构成的序列变为由音节长度构成的序列。然后,假设音节长度序列符合一阶马尔科夫过程,经过归一化处理后,求出了切分的先验概率公式,得到了贝叶斯方法的切分模型。在噪声环境下的实验证明,由于切分模型独立于噪声,对在噪声环境下声学模型的失配提供了很好的补偿,使得语音切分的鲁棒性大大增加。  相似文献   

11.
考虑连续语音中的协同发音问题,提出基于词内扩展的单流上下文相关三音素动态贝叶斯网络(SS-DBN-TRI)模型和词间扩展的单流上下文相关三音素DBN(SS-DBN-TRI-CON)模型。SS-DBN-TRI模型是Bilmes提出单流DBN(SS-DBN)模型的改进,采用词内上下文相关三音素节点替代单音素节点,每个词由它的对应三音素单元构成,而三音素单元和观测向量相联系;SS-DBN-TRI-CON模型基于SS-DBN模型,通过增加当前音素的前音素节点和后音素节点,构成一个新的词间扩展的三音素变量节点,新的三音素节点和观测向量相联系,采用高斯混合模型来描述,采用数字连续语音数据库的实验结果表明:SS-DBN-TRI-CON具备最好的语音识别性能。  相似文献   

12.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

13.
近年来大词汇量连续语音识别技术得到了迅速的发展,国内外研究机构加大了对汉语和英语语音识别技术的研究,然而,维吾尔语语音识别技术的研究工作最近才起步。建立了面向大词汇量的维吾尔语语音语料库,研究了维吾尔语声学模型和语言模型建模技术、解码技术,进行了面向大词汇量的维吾尔语连续语音识别实验。对维吾尔语大词汇量连续语音识别技术进一步发展中存在的问题进行了讨论。  相似文献   

14.
提出了一种基于随机段模型的发音信息集成方法。根据随机段模型的模型特性,建立了阶层式人工神经网络来获取语音段信号属于各类音素的后验概率,并通过一遍解码的方式集成到随机段模型系统中。在“863-test”测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了5.93%。实验结果表明了将发音信息应用到随机段模型的可行性。  相似文献   

15.
提出了一种基于随机段模型的发音信息集成方法.根据随机段模型的模型特性,建立了阶层式人工神经网络来获取语音段信号属于各类音素的后验概率,并通过一遍解码的方式集成到随机段模型系统中.在“863-test”测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了5.93%.实验结果表明了将发音信息应用到随机段模型的可行性.  相似文献   

16.
提出了一种基于Gabor特征和深度信念网络(DBN)的人脸识别方法,通过提取Gabor人脸图像的不同尺度图进行卷积融合,将融合后的特征图作为DBN的输入数据,训练多层来获得更加抽象的特征表达,整个训练的过程中采用交差熵来微调DBN,模型的最顶层结合Softmax回归分类器对抽取后的特征进行分类.在AR人脸库测试的实验结果表明:将Gabor特征与DBN结合应用于人脸识别,其准确率可高达92.7%,与其他浅层学习模型相比,DBN学习了数据的高层特征的同时还降低了特征维数,提高了分类器的分类精度,最终有效改善了人脸识别率.  相似文献   

17.
《微型机与应用》2017,(13):55-58
针对现有的手势识别均采用有监督模型进行特征提取和识别的现状,提出一种基于PCA的深度信念网(DBN)的半监督的手势特征提取与识别方法。运用所提方法进行了大量的实验,证明该方法与直接将图片输入到DBN网络相比,可以有效降低DBN的训练时间,并且识别率也有所提高;并且该方法与传统的有监督的SVM的手势识别方法相比,训练时间大幅度减少而识别率也有很大的提升。最后,对该方法进行了鲁棒性验证,经过大量实验,证明了其具有很强的鲁棒性。  相似文献   

18.
Audio-visual speech modeling for continuous speech recognition   总被引:3,自引:0,他引:3  
This paper describes a speech recognition system that uses both acoustic and visual speech information to improve recognition performance in noisy environments. The system consists of three components: a visual module; an acoustic module; and a sensor fusion module. The visual module locates and tracks the lip movements of a given speaker and extracts relevant speech features. This task is performed with an appearance-based lip model that is learned from example images. Visual speech features are represented by contour information of the lips and grey-level information of the mouth area. The acoustic module extracts noise-robust features from the audio signal. Finally the sensor fusion module is responsible for the joint temporal modeling of the acoustic and visual feature streams and is realized using multistream hidden Markov models (HMMs). The multistream method allows the definition of different temporal topologies and levels of stream integration and hence enables the modeling of temporal dependencies more accurately than traditional approaches. We present two different methods to learn the asynchrony between the two modalities and how to incorporate them in the multistream models. The superior performance for the proposed system is demonstrated on a large multispeaker database of continuously spoken digits. On a recognition task at 15 dB acoustic signal-to-noise ratio (SNR), acoustic perceptual linear prediction (PLP) features lead to 56% error rate, noise robust RASTA-PLP (relative spectra) acoustic features to 7.2% error rate and combined noise robust acoustic features and visual features to 2.5% error rate  相似文献   

19.
探索在不同的情感状态下的基音特征变化规律.通过对含有生气、高兴、悲伤情感语音信号进行分析,总结了情感语音基频的变化规律,确定了用于情感识别的12维的基频的基本特征以及扩展特征,运用混合高斯模型进行情感识别,并作了识别实验,获得了较好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号