共查询到20条相似文献,搜索用时 187 毫秒
1.
本文给出了一个高性能汉语数码串非特定人连续语音识别系统,其声学模型基于Mel倒谱系数和连续HMM,识别时采用多候选帧同步搜索算法,并采用了MCE算法进行训练以提高系统的区分能力,实验证明该系统的识别率为94.8%(不定长数字串)和96.8%(定长数字串).为增强系统的实用性,本文还研究了基于MAP算法的说话人自适应算法和基于置信度的拒识算法.在进行自适应后,误识率可相对下降40%以上,在拒绝掉5%的正确语音时,系统识别率可以上升到96.9%(不定长数字串)和98.7%(定长数字串). 相似文献
2.
3.
基于电话用户交换机的语音识别系统研究 总被引:3,自引:0,他引:3
本论文对电话用户交换机研制了一个声控语音命令交换系统,该系统能够实现与特定人无关中小词汇量连续命令语音自动识别,研究中统计了用和命令语句,生成相应识别文法网络,识别系统的训练采用由子词模型构成的复合模型进行强化训练,识别采用令牌传递式改进Viterbi算法,提高系统的识别性能,论文比较了不同语音特征参数以及隐含马尔可夫模型状态数对电话语音识别精度的影响,研究中还开发识别系统拒识系统,在无拒识情况下 相似文献
4.
高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。 相似文献
5.
本文首次使用了最大熵谱法估计的LPC反射系数矢量的长期平均作为说话人的语音特征矢量,利用所定义的特征矢量的平均自差异函数,平均互差异函数及平均互——自差异比函数分析了特征矢量用于非限定语音的说话人识别的有效性和说话人的可区分性;从模式识别分类的Bayes判决准则出发,导出了便于计算和程序实现的简化判决公式——欧几里德空间的加权和距离公式,并利用平均差异函数选择加权系数;提出了用序贯判别法对集外说话人的拒识方法;研制了相应的以微机为核心的实时响应的实验系统,响应速度为3秒。用此系统对20个说话人进行了非限定语音的说话人识别试验,误音率为10.67%,误拒率为5.67%,正确识别率95.41%。 相似文献
6.
7.
多权值神经元网络仿生模式识别方法在低训练样本数量非特定人语音识别中与HMM及DTW的比较研究 总被引:9,自引:2,他引:7
本文将基于多权值神经元网络的仿生模式识别方法用于连续语音有限词汇量固定词组识别的研究中,并将其识别效果与HMM方法及DTW方法进行了比较分析.以15个词组的词汇表做测试,通过调整这三种识别算法的参数,在它们的拒识率相同的情况下,针对参加训练的词汇,比较他们的错误识别率(某类误认为他类);针对未参加训练的词汇,比较他们的错误接受率(误认为某类).结果表明,在低训练样本数量的情况下,仿生模式识别方法能获得更好的识别效果. 相似文献
8.
9.
10.
11.
本文提出了一种新的用于片上的语音识别多级搜索算法.该算法以连续隐含马尔可夫模型(Continuous Density HMM,CDHMM)为基本识别框架.在保证识别率基本不变的前提下,大大降低了片内存储空间的占用量,减少了识别搜索时间.在第二级识别候选词条的选取准则上,提出一种基于置信度的选择方法,更进一步改善了识别速度,增强了识别的稳健性.在200个语音命令的识别任务下,系统的识别率为98.83%.而当识别词条增加到600条时,该算法也具有良好的识别性能. 相似文献
12.
13.
14.
将语音识别技术应用于拨号系统,在嵌入式平台上实现了一款针对非特定人的数字语音拨号系统。语音识别算法中选择梅尔频率倒谱系数为特征参数,连续隐马尔科夫模型。为训练和识别过程模型,利用Qt界面对识别过程进行控制,系统针对非特定人数字语音识别进行实验。结果表明,系统针对非特定人识别率达到了98%,识别时间为3.55S。识别率和实时性都满足语音拨号的需求。 相似文献
15.
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。 相似文献
16.
17.
Jiang Minghu Lin Biqin Yuan Baozong 《电子科学学刊(英文版)》1999,16(3):208-214
In this paper according to the process of cognitive of human being to speech is put forward a model of speech recognition and understanding in a noisy environment. For speech recognition, two level modular Extended Associative Memory Neural Networks (EAMNN) are adopted. The learning speed is 9 times faster than that of the conventional BP net. It has high self-adaptability, robustness, fault toleration and associative memory ability to the noisy speech signals. To speech understanding, the structure of hierarchical analysis and examining faults which is a combination of statistic inference and syntactic rules is adopted, to pick up the candidates of the speech recognition and to predict the next word by the statistic inference base; and the syntactic rule base reduces effectively the recognition errors and candidates of acoustic level; then by comparing and rectifying errors through information feedback and guiding the succeeding speech process, the recognition of the sentence is realized. 相似文献
18.
19.
Reliable speech recognition is one of the challenges of user-friendly computing. An Esprit project has brought speech processing in several languages much closer to commercial reality. The authors describe the Polyglot project in which the system for recognising isolated speech in Polyglot builds on a technology originally developed for Italian, extending it to cope with English, French, German, Spanish and Greek. The method consists of three modules: a preselection stage, a fine phonetic analysis and a linguistic module. For each word, the preselection module conducts a fast search across the known vocabulary and selects 2% of the words as the most probable candidates. Fine phonetic analysis hones the possibilities to the best five. Finally, the linguistic module produces a single 'recognised' word after due consideration of its grammatical category (e.g. whether it's a noun or a verb), and the category of the preceding word. All this work is done on a PC (386 or higher) with a specially designed DSP (digital signal processing) board. The results obtained varied with different languages, depending on the intrinsic difficulty of the language and the amount of development work undertaken. The authors discuss the Spanish achievements in Polyglot 相似文献
20.
提出了一种结合韵律信息的高性能汉语连续数字语音识别算法,该识别算法基于CHMM(连续隐马尔可夫模型),采用MFCC(MEL频率倒谱系数)为主要语音特征参数,结合韵律信息进行连续数字精确分割,能够有效区分易混数字。算法采用两级识别框架来提高语音识别率,其中,第1级对连续数字分割,在此基础上进行数字语音识别,输出各候选结果,第2级在候选结果中确定易混数字对,并运用韵律信息进一步选择正确结果。实验表明,最终汉语连续数字语音识别率有很大提高。 相似文献