首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
高性能汉语数码串语音识别   总被引:9,自引:0,他引:9       下载免费PDF全文
李虎生  刘加  刘润生 《电子学报》2001,29(5):595-599
本文给出了一个高性能汉语数码串非特定人连续语音识别系统,其声学模型基于Mel倒谱系数和连续HMM,识别时采用多候选帧同步搜索算法,并采用了MCE算法进行训练以提高系统的区分能力,实验证明该系统的识别率为94.8%(不定长数字串)和96.8%(定长数字串).为增强系统的实用性,本文还研究了基于MAP算法的说话人自适应算法和基于置信度的拒识算法.在进行自适应后,误识率可相对下降40%以上,在拒绝掉5%的正确语音时,系统识别率可以上升到96.9%(不定长数字串)和98.7%(定长数字串).  相似文献   

2.
尉洪  杨鉴  普园媛  赵征鹏 《信号处理》2005,21(Z1):196-199
说话人自适应是提高非特定人语音识别系统识别性能的有效手段,本文针对非母语说话人,结合常规的自适应技术MLLR和MAP,探索云南纳西族和傈僳族两种母语说话人的汉语普通话语音识别问题,实验结果显示有显著效果.  相似文献   

3.
基于电话用户交换机的语音识别系统研究   总被引:3,自引:0,他引:3  
本论文对电话用户交换机研制了一个声控语音命令交换系统,该系统能够实现与特定人无关中小词汇量连续命令语音自动识别,研究中统计了用和命令语句,生成相应识别文法网络,识别系统的训练采用由子词模型构成的复合模型进行强化训练,识别采用令牌传递式改进Viterbi算法,提高系统的识别性能,论文比较了不同语音特征参数以及隐含马尔可夫模型状态数对电话语音识别精度的影响,研究中还开发识别系统拒识系统,在无拒识情况下  相似文献   

4.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。  相似文献   

5.
本文首次使用了最大熵谱法估计的LPC反射系数矢量的长期平均作为说话人的语音特征矢量,利用所定义的特征矢量的平均自差异函数,平均互差异函数及平均互——自差异比函数分析了特征矢量用于非限定语音的说话人识别的有效性和说话人的可区分性;从模式识别分类的Bayes判决准则出发,导出了便于计算和程序实现的简化判决公式——欧几里德空间的加权和距离公式,并利用平均差异函数选择加权系数;提出了用序贯判别法对集外说话人的拒识方法;研制了相应的以微机为核心的实时响应的实验系统,响应速度为3秒。用此系统对20个说话人进行了非限定语音的说话人识别试验,误音率为10.67%,误拒率为5.67%,正确识别率95.41%。  相似文献   

6.
自动说话人识别   总被引:7,自引:0,他引:7  
本文以语音信号LPC倒谱系数作为识别特征,运用矢量量化技术实现自动说话人识别.在一个42人、7700个语音的数据库上,我们进行了系统的识别实验,研究了不同系统参数对识别率的影响,得到了不少有参考价值的结果.本文还介绍了在此基础上研制成功的一个实时语声交互式身份确认系统,该系统作为计算机的语音锁,正确识别率达到95%以上.  相似文献   

7.
覃鸿  王守觉 《电子学报》2005,33(5):957-960
本文将基于多权值神经元网络的仿生模式识别方法用于连续语音有限词汇量固定词组识别的研究中,并将其识别效果与HMM方法及DTW方法进行了比较分析.以15个词组的词汇表做测试,通过调整这三种识别算法的参数,在它们的拒识率相同的情况下,针对参加训练的词汇,比较他们的错误识别率(某类误认为他类);针对未参加训练的词汇,比较他们的错误接受率(误认为某类).结果表明,在低训练样本数量的情况下,仿生模式识别方法能获得更好的识别效果.  相似文献   

8.
文中以语音信号的LPC倒谱系数、△倒谱系数、基音周期和△基音周期的混合特征参数作为识别说话人的特征,运用VQ技术实现了说话人自动识别。在10个说话人,1800个汉语数字和单词语音的语音库上进行了系统的识别实验,其中单音节语音的平均识别率达到了92%,双音节语音达到了96.67%,四音节语音达到了97.67%。  相似文献   

9.
支持向量机是统计理论学习中一个重要的学习方法,也是解决模式识别问题的强有力工具,尤其在二元分类上有着突出的优势。拒识技术是语音识别系统走向实用化的关键技术之一,但由于语音信号的复杂性,使得拒识一直是语音识别技术中的难题。有机的将支持向量机技术应用于关键词识别的拒识问题中,把关键词识别中的正识和误识作为支持向量机的二元分类对象。这种方法避免了传统拒识方法对拒识门限的确定,同时充分发挥了支持向量机在二元分类上的优势。实验表明该算法效果较为有效。  相似文献   

10.
本文从模板匹配的角度研究了多层前向感知机(MLP)在汉语孤立数目字语音识别中的应用,针对训练样本数受限的情况提出了新的训练方法,研究了语音固化、特征提取、学习算法和策略诸方面问题。对特定人和非特定人汉语孤立数目字语音识别分别达至了95.7%和93.0%(无拒识)的识别率。  相似文献   

11.
语音识别片上系统中的多级搜索算法   总被引:7,自引:0,他引:7       下载免费PDF全文
朱璇  陈一宁  刘加  刘润生 《电子学报》2004,32(1):150-153
本文提出了一种新的用于片上的语音识别多级搜索算法.该算法以连续隐含马尔可夫模型(Continuous Density HMM,CDHMM)为基本识别框架.在保证识别率基本不变的前提下,大大降低了片内存储空间的占用量,减少了识别搜索时间.在第二级识别候选词条的选取准则上,提出一种基于置信度的选择方法,更进一步改善了识别速度,增强了识别的稳健性.在200个语音命令的识别任务下,系统的识别率为98.83%.而当识别词条增加到600条时,该算法也具有良好的识别性能.  相似文献   

12.
利用背景知识提高web语音浏览中的识别精度的方法   总被引:7,自引:0,他引:7       下载免费PDF全文
李红莲  王春花  袁保宗 《电子学报》2002,30(12):1836-1839
语音识别的精度不够高一直是阻碍语音技术得以广泛应用的瓶颈,在具体的应用中充分利用背景知识是解决此问题的一种有效方法.在web语音浏览中,用户的语音输入为某个有限集的元素之一,本文利用这个特点,首先定义了一种文本字符串之间的相似度,利用相似度对识别引擎的识别结果进行后处理,进而给出更准确的识别结果.实验结果表明,采用这种方法,语音识别的正确率能够达到95%以上,为真正实现语音上网提供了有力支持.  相似文献   

13.
王侠  顾明亮  高原  马勇 《电声技术》2011,35(12):39-41,46
提出一种基于GMM的区分不同性别的汉语方言识别系统,系统提取语音的RASTA - PLP特征,在方言电话语音库上进行仿真实验,结果表明在GMM模型阶数为32时,系统的识别率可达到98.66%.同时还将RASTA -PLP特征与SDC特征对比,结果表明系统识别率最高可提高6.05%,且RASTA - PLP特征在性别分类...  相似文献   

14.
将语音识别技术应用于拨号系统,在嵌入式平台上实现了一款针对非特定人的数字语音拨号系统。语音识别算法中选择梅尔频率倒谱系数为特征参数,连续隐马尔科夫模型。为训练和识别过程模型,利用Qt界面对识别过程进行控制,系统针对非特定人数字语音识别进行实验。结果表明,系统针对非特定人识别率达到了98%,识别时间为3.55S。识别率和实时性都满足语音拨号的需求。  相似文献   

15.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

16.
非母语语音识别的性能较低,对于刚开始学习目标语言的说话人或者口音很重的说话人而言,性能下降更为明显。本文提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。在该算法中,基线声学模型的每个状态都将被代表说话人母语特点的辅助模型状态所修正。文章给出了状态修正准则以及不同候选修正状态数下的性能比较。相比已用非母语训练数据自适应以后的基线声学模型,通过双语模型修正的声学模型在保证识别实时率的前提下,短语错误率相对下降了11.7%。  相似文献   

17.
In this paper according to the process of cognitive of human being to speech is put forward a model of speech recognition and understanding in a noisy environment. For speech recognition, two level modular Extended Associative Memory Neural Networks (EAMNN) are adopted. The learning speed is 9 times faster than that of the conventional BP net. It has high self-adaptability, robustness, fault toleration and associative memory ability to the noisy speech signals. To speech understanding, the structure of hierarchical analysis and examining faults which is a combination of statistic inference and syntactic rules is adopted, to pick up the candidates of the speech recognition and to predict the next word by the statistic inference base; and the syntactic rule base reduces effectively the recognition errors and candidates of acoustic level; then by comparing and rectifying errors through information feedback and guiding the succeeding speech process, the recognition of the sentence is realized.  相似文献   

18.
胡丹  曾庆宁  龙超  黄桂敏 《电视技术》2015,39(24):43-46
针对大词汇量连续语音识别中识别率不高的问题,提出了将语音增强级联在识别系统前端,在语音增强中将谱减法和对数最小均方误差算法(logmmse)与用于噪声估计的最小控制递归平均算法(imcra)相结合。识别系统使用Mel频率倒谱系数(MFCC)提取特征,用隐马尔科夫模型(HMM)训练与识别。实验结果表明,提出的方法最高能使单词识别率提高38.9%,使句子正确率提高21.8%。该方法用于大词汇量连续语音识别是可行的,有效的。  相似文献   

19.
Pardo  J.M. Aguilera  S. Savoji  M.H. 《IEE Review》1994,40(4):163-165
Reliable speech recognition is one of the challenges of user-friendly computing. An Esprit project has brought speech processing in several languages much closer to commercial reality. The authors describe the Polyglot project in which the system for recognising isolated speech in Polyglot builds on a technology originally developed for Italian, extending it to cope with English, French, German, Spanish and Greek. The method consists of three modules: a preselection stage, a fine phonetic analysis and a linguistic module. For each word, the preselection module conducts a fast search across the known vocabulary and selects 2% of the words as the most probable candidates. Fine phonetic analysis hones the possibilities to the best five. Finally, the linguistic module produces a single 'recognised' word after due consideration of its grammatical category (e.g. whether it's a noun or a verb), and the category of the preceding word. All this work is done on a PC (386 or higher) with a specially designed DSP (digital signal processing) board. The results obtained varied with different languages, depending on the intrinsic difficulty of the language and the amount of development work undertaken. The authors discuss the Spanish achievements in Polyglot  相似文献   

20.
提出了一种结合韵律信息的高性能汉语连续数字语音识别算法,该识别算法基于CHMM(连续隐马尔可夫模型),采用MFCC(MEL频率倒谱系数)为主要语音特征参数,结合韵律信息进行连续数字精确分割,能够有效区分易混数字。算法采用两级识别框架来提高语音识别率,其中,第1级对连续数字分割,在此基础上进行数字语音识别,输出各候选结果,第2级在候选结果中确定易混数字对,并运用韵律信息进一步选择正确结果。实验表明,最终汉语连续数字语音识别率有很大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号