首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性.采用连续数字音视频数据库的实验结果表明,在信噪比为O~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%.  相似文献   

2.
为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别.首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个“软最大化(softmax)”输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别.针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能.  相似文献   

3.
提出了用于音素识别的K子空间和时延自相关器神经网络结构,用将时延设计加入线性自相关器,以扩展音素滤波神经网络的方法,产生p维子空间,并采用迭代过程修改划分,以便捕获语音信号中的时间序列信息。这种带不分类训练过程的体系结构提供了一种高识别性能的方法,没有大多数常规语音识别神经网络所常有的网络输出值不表示候选者似然性的缺陷。通过英语音素和汉语音素的初步试验,识别正确率为84.38%,比音素滤波神经网络方法好。  相似文献   

4.
针对当前主流的基于统计模型的语音识别系统没有使用语音产生知识的问题,通过模拟人类的语音感知理解过程提出了一种“自下而上”的基于区分性特征的音素识别方法.该方法首先根据不同音素的发音特点检测得到音素的边界信息;然后利用分类器完成语音的区分性特征检测,并根据区分性特征与音素的对应关系建立映射表;最后利用音素的边界信息得到语音段的特征序列,通过对语音段的特征序列模糊搜索匹配实现音素识别.实验结果表明,相比于传统的基于隐马尔科夫模型的音素识别方法,该方法在识别速度、鲁棒性及可扩展性等方面具有明显优势.  相似文献   

5.
彝语的语音识别与处理是语音信号处理领域的一个新方向.本文在深入分析彝语特点的基础上,对用于汉语孤立词识别的经典端点检测算法进行了改进.探讨了动态时间规整算法(Dynamic Time Warping,DTW)和高效动态时间规整算法(Efficient DTW,EDTW)在彝语孤立词识别中的应用,并提出了两种新算法:基于音节个数的动态时间规整算法(Syllable Number Based Improved DTW,SDTW)和基于音节个数的高效动态时间规整算法(Syllable Number Based Improved EDTW,SEDTW),对特定的彝语语音信号进行识别.实验结果表明,所提出的两种新算法分别在信号识别率和识别时间上比经典算法优越.  相似文献   

6.
在汉语大词汇量连续语音识别中,以往基于最大后验概率准则解码得到的识别结果具有最小的句子错误率,为了得到字错误率最小的识别结果,可以采用最小贝叶斯风险解码策略,通过将识别输出的word lattice转换成为混淆网络以得到最小字错误率的识别结果。在以往混淆网络算法的基础上,根据汉语语言的特点,提出一种改进的构造混淆网络的算法。基于863测试语音库进行的实验表明,与最大后验概率识别结果和以前的两种混淆网络算法的识别结果相比,改进的混淆网络算法有效地降低汉语大词汇量连续语音识别结果的字错误率。  相似文献   

7.
为了进一步提高针对汉语语音的唇形特征识别效果,分析实际汉语语音发音过程中声母韵母之间音素的变换规律,以及连读等发音习惯而造成的口形变化,利用唇形特征所对应的音素帧间的相关性,采用二阶隐马尔可夫模型来对唇形特征参数序列进行学习和识别,从而分析汉语唇形识别效果.基于独立汉字发音的实验表明,在针对特定人的识别条件下,在最优的加权因子(m∶n=1.5∶1)特征组合条件下,针对同一组融合得到的特征向量,考虑了音素帧间的相关性后,识别率提高了1.2%.可见汉语音节中音素帧间的相关性与唇形特征的变化规律相对应,有利于提高唇形识别的效果.  相似文献   

8.
为了提高语音查询项检索系统中集外词检索的性能,在加权有限状态转换器(weightedfinite-state transducer,WFST)框架下提出了一种基于音素混淆模型的集外词查询项扩展技术,将查询项扩展成多发音序列来解决集外词问题.首先由G2P(grapheme-to-phoneme)模型生成查询项的发音序列,然后利用音素混淆模型将发音序列扩展成N-best发音,以补偿识别错误造成Lattice建立的索引与查询项发音序列之间音素表示差异带来的影响,从而有效降低漏警率.实验结果表明,加入音素混淆模型之后,系统集外词检索性能有明显提升.  相似文献   

9.
基于神经网络的汉语孤立词语音识别   总被引:3,自引:0,他引:3  
研究了基于神经网络的中文孤立词语音识别技术;将时间规整算法与神经网络相结合,组成一个混合级联神经网络语音识别系统. 在这个模型中,第一级是时间规整神经网络. 其作用是完成时间规整功能,从输入不等长的语音信号特征矢量序列中提取固定长度的特征矢量;然后将这组特征矢量馈入后一级BP网络完成语音识别. 利用该方法对小词表汉语孤立词进行语音识别实验,获得了98.25%的正确识别率. 实验结果表明,该系统不仅利用神经网络解决了语音识别中的时间规整难题,而且识别性能明显得到改善,识别率和训练速度均优于采用线性时间规整的神经网络语音识别方法.  相似文献   

10.
介绍了一种基于VQ的小词汇量特定人快速语音识别方法,并对该方法中的关键参数进行了比较性研究. 这一方法尤其适用于汉语特定人小词汇量语音识别. 与典型的HMM和NN识别算法相比,该方法复杂度低、系统资源消耗少而识别率高,在对汉语11个数字的大规模识别测试中误识率仅为3.86%. 因此,该方法适合于在手机、PDA等资源有限的系统中实现语音数字拨号、人名拨号及查询等语音控制功能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号