首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
汉语连续语音中声调识别的特殊性研究   总被引:1,自引:0,他引:1  
大词汇连续语识别是当前语音识别研究的主流,探讨其中声调识别的特殊是一项有意义的工作,本文从声调获取,语音分割,声调模式和声调识别等进行了研究,通过对现有研究成果的分析和总结,并结合自己的研究工作,得出了若干结论,提出了基于音节的连续语音声调识别思想。  相似文献   

2.
在汉语语音识别中应用声调信息的研究   总被引:6,自引:0,他引:6  
声调信息在汉语普通话语音识别系统中,具有非常重要的意义。文章实现了声调特征提取的算法,并主要研究了如何应用这些特征,才能最大限度地发挥声调信息的作用,提高识别系统的性能。实验结果表明,声调特征可以和识别系统原有的特征很好地结合,合理应用声调信息能有效地提高识别系统的性能,系统的误识率下降了22.26%。  相似文献   

3.
利用语音信号与噪声信号具有不同相关特性的特点,提出了一种新的加权自相关基频检测算法,该方法可以提高噪声环境下基音检测的准确性。在分类器设计方面,通过引入支持矢量机,进一步提高低信噪比下的汉语声调识别率。实验结果表明,新方法对提高噪声环境下的声调识别效果是十分有效的。  相似文献   

4.
利用语音信号与噪声信号具有不同相关特性的特点,提出了一种新的加权自相关基频检测算法,该方法可以提高噪声环境下基音检测的准确性。在分类器设计方面,通过引入支持矢量机,进一步提高低信噪比下的汉语声调识别率。实验结果表明,新方法对提高噪声环境下的声调识别效果是十分有效的。  相似文献   

5.
基音周期估计算法在声调康复训练中的应用   总被引:7,自引:0,他引:7  
汉语是一种声调语言,而声调的识别是以基音周期的估计为基础的。文章首先用LPC求残差系数,然后对残差系数求自相关周期,进而求出基音周期,再结合计算机智能诊断,提出了一套适合临床语言障碍患者进行语音诊断和康复训练的方法。  相似文献   

6.
汉语语音识别中的区分性声调建模方法   总被引:1,自引:0,他引:1  
提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的性能。声调识别实验表明区分性的声调模型训练以及特征提取方法显著提高了声调识别率。区分性模型权重训练能够在声调模型加入之后进一步连续语音识别系统的识别率。  相似文献   

7.
提出一种汉语音的声调修正方法,该方法由声调规则的应用和声调平滑两部分组成。方方法在我们研制的基于基音同步叠加的语间合成系统中使用在改善合成语句的自然度和可度方面取得了较好的效果。  相似文献   

8.
汉语孤立字声调的模糊识别方法   总被引:1,自引:0,他引:1  
本文应用模糊集合来识别汉语孤立字的声调。孤独字的四声调可被描述成四种模式类的模糊集合。由于四声调的基音轮廓具有其固定模式, 因之在此基础上可构成模糊集合的隶属函数。方法中使用隶属函数为模式分类的判别函数。这些隶属函数既简单又易于计算, 故适宜实时执行。实验结果表明, 总的识别率高于99%。  相似文献   

9.
支持向量机的汉语连续语音声调识别方法   总被引:2,自引:1,他引:1  
声调信息在汉语语音识别中具有非常重要的意义。采用支持向量机对连续汉语连续语音进行声调识别实验,首先采用基于Teager能量算子和过零率的两级判别策略对连续语音进行浊音段提取,然后建立了适合于支持向量机分类模型的等维声调特征向量。使用6个二类SVM模型对非特定人汉语普通话的4种声调进行分类识别,与BP神经网络相比,支持向量机具有更高的识别率。  相似文献   

10.
基于统计方法的汉语连续语音中声调模式的研究   总被引:4,自引:0,他引:4       下载免费PDF全文
曹阳  黄泰翼  徐波 《自动化学报》2004,30(2):191-198
提出采用决策树的数据驱动方法,结合专家知识.从大规模语料中统计学习出连续语音中声调模式的分布.在建立决策树的过程中,除了相邻音节的声调外.还考虑了多种可能影响声调模式的因素,如音节声韵母发音特点的分类、音节在词中的位置等.决策树建立后,共得到28种声调模式.通过对结果的分析发现,除了上下文的声调外,其它因素对连续语音中声调模式的变化也有一定的影响.声调识别实验的结果证明了该方法的有效性.  相似文献   

11.
带噪语音端点检测方法研究   总被引:2,自引:0,他引:2  
朴春俊  马静霞  徐鹏 《计算机应用》2006,26(11):2685-2686
影响语音识别性能的一个关键因素是端点检测的准确性。实际应用中信噪比较低,使得某些高信噪比下性能好的检测算法不能有效工作,影响系统的识别率。提出了一种基于时频方差和的语音端点检测算法。实验证明该算法能够在低信噪比的情况下,准确地检测出语音信号。通过对三种不同的端点检测算法的比较,发现基于时频方差和的端点检测算法的端点检测的准确率较高。  相似文献   

12.
In Continuous Speech Recognition (CSR) systems a Language Model (LM) is required to represent the syntactic constraints of the language. Then a smoothing technique needs to be applied to avoid null LM probabilities. Each smoothing technique leads to a different LM probability distribution. Test set perplexity is usually used to evaluate smoothing techniques but the relationship with acoustic models is not taken into account. In fact, it is well-known that to obtain optimum CSR performances a scaling exponential parameter must be applied over LMs in the Bayes’ rule. This scaling factor implies a new redistribution of smoothed LM probabilities. The shape of the final probability distribution is due to both the smoothing technique used when designing the language model and the scaling factor required to get the optimum system performance when integrating the LM into the CSR system. The main object of this work is to study the relationship between the two factors, which result in dependent effects. Experimental evaluation is carried out over two Spanish speech application tasks. Classical smoothing techniques representing very different degrees of smoothing are compared. A new proposal, Delimited discounting, is also considered. The results of the experiments showed a strong dependence between the amount of smoothing given by the smoothing technique and the way that the LM probabilities need to be scaled to get the best system performance, which is perplexity independent in many cases. This relationship is not independent of the task and available training data.  相似文献   

13.
为了完成特定领域的语音识别任务,利用有限的语料建立高性能的语言模型成为提高系统性能的关键。针对此问题,对特定领域的语言模型进行了研究。提出了利用高频新词来加强模型的领域特征的方法,采取了两种方案:一种是将高频新词直接加入原有字典,并在训练过程中增加这些新词的权重,使模型更能表达与领域相关的特征;一种是基于高频新词统计出一个和领域相关的小词表,并对这两种方案进行了比较研究。通过实验研究了适合汉语语言的平滑策略。最后,实验结果表明,对于特定领域问题,语言模型平滑算法对模型性能影响较大;采用适合汉语的Witten-Bell插值平滑,可以使识别率达到88.4%,比通用模型性能相对提高了18.18%。  相似文献   

14.
一种基于频能比的端点检测算法   总被引:2,自引:0,他引:2  
根据语音的发音特点,论文提出了一种在噪音环境中检测语音信号的参数———频能比(FER),并且提出一种基于该参数的端点检测算法,实验表明该算法能够在信噪比较小的情况下,准确地检测出语音信号。通过对三种不同的端点检测算法的比较,笔者发现基于频能比的端点检测算法在环境噪音比较强的情况下可以有效地提高语音信号的识别率。  相似文献   

15.
提出基于短时能量和过零率的简化语音信号双门限端点检测算法,搭建Matlab的算法仿真平台,实验结果表明,基于短时能量和过零率的双门限端点检测算法在保证检测率的前提下,运算复杂度和运算量均优于倒谱、分形、加权门限端点检测方法。采用Verilog语言完成了该模块的设计和仿真,并成功应用于孤立词语音识别系统中。该语音识别系统采用定点数设计方式,语音信号的采样频率为8kHz,每次采样的数据为8bits,晶片内部稳定工作频率为20MHz。实验结果表明,在200个词源的条件下,平均可以达到90%以上的识别效果。  相似文献   

16.
精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。  相似文献   

17.
         下载免费PDF全文
This paper presents a new and simple scheme to describe the convex hull in R^d,which only uses three kinds of the faces of the convex hull.i.e.,the d-1-faces,d-2-faces and 0-faces.Thus,we develop and efficient new algorithm for constructing the convex hull of a finite set of points incrementally.This algorithm employs much less storage and time than that of the previously-existing approaches.The analysis of the runniing time as well as the storage for the new algorithm is also theoretically made.The algorithm is optimal in the worst case for even d.  相似文献   

18.
    
In this paper, we propose a novel front-end speech parameterization technique for automatic speech recognition (ASR) that is less sensitive towards ambient noise and pitch variations. First, using variational mode decomposition (VMD), we break up the short-time magnitude spectrum obtained by discrete Fourier transform into several components. In order to suppress the ill-effects of noise and pitch variations, the spectrum is then sufficiently smoothed. The desired spectral smoothing is achieved by discarding the higher-order variational mode functions and reconstructing the spectrum using the first-two modes only. As a result, the smoothed spectrum closely resembles the spectral envelope. Next, the Mel-frequency cepstral coefficients (MFCC) are extracted using the VMD-based smoothed spectra. The proposed front-end acoustic features are observed to be more robust towards ambient noise and pitch variations than the conventional MFCC features as demonstrated by the experimental evaluations presented in this study. For this purpose, we developed an ASR system using speech data from adult speakers collected under relatively clean recording conditions. State-of-the-art acoustic modeling techniques based on deep neural networks (DNN) and long short-term memory recurrent neural networks (LSTM-RNN) were employed. The ASR systems were then evaluated under noisy test conditions for assessing the noise robustness of the proposed features. To assess robustness towards pitch variations, experimental evaluations were performed on another test set consisting of speech data from child speakers. Transcribing children's speech helps in simulating an ASR task where pitch differences between training and test data are significantly large. The signal domain analyses as well as the experimental evaluations presented in this paper support our claims.  相似文献   

19.
语音端点检测在语音处理中占有非常重要的地位,传统的检测方法是基于短时能量和过量率的双门限比较法,但是在信噪比较低的情况下,利用短时能量和过量率很难得到准确的检测结果。另外,在双门限比较法中,判别门限的取值对整个端点的检测影响很大,而这个门限值往往是靠经验所得,具有不稳定性。因此,针对传统方法的不足,根据语音帧间相关性,提出了一种改进算法。让语音信号通过双门限比较,完成端点检测的一级粗判,在语音起止点的模糊帧段,取一定范围的信号矢量,让这些矢量经过处理后再通过有限状态矢量量化器(FSVQ),得到量化矢量,再对量化矢量进行二级细判,从而得到准确的语音起止点。将改进算法应用于汉语连续数字语音识别,平均识别时间由原来的0.871s缩短为0.719s,平均识别率由原来的81.47%上升至89.13%,实验结果表明了该算法的有效性。  相似文献   

20.
一种改进的基于频能比的端点检测算法   总被引:6,自引:0,他引:6  
端点检测的不准确是造成语音识别错误的一个重要原因,根据元音和噪音信号频能比的差异,以及辅音信号的过零率特点,论文提出了一种改进的基于频能比的端点检测算法———MEPD-FER,实验表明该算法可以在有噪音存在的情况下快速准确地确定出语音信号的端点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号