首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

2.
针对现实中训练数据不足的特点,在说话人建模时采用高斯混合模型-通用背景模型(Gaussian Markov Model-Uniform Background Model, GMM-UBM),主要从说话人识别模型的自适应方法和参数估计方法两个方面,研究如何提高说话人识别系统的识别率。在说话人识别模型自适应方面,改进传统的用最大后验概率 MAP (Maximum A Posterior Probability)得到说话人模型的方法,将语音识别中的最大似然线性回归MLLR (Maximum Likelihood Linear Regression)和基于特征音(EigenVoice, EV)的自适应方法,应用到说话人识别模型自适应当中,并将其与MAP方法进行比较。  相似文献   

3.
在基于隐马尔可夫模型的语音合成说话人自适应中,通常的最大似然线性回归(Maximum likelihoad linear regression, MLLR)方法在自适应后的音质和相似度等方面与原始语音仍有一定的差距.为了改善说话人自适应的效果,本文从识别的理论出发,将结构化最大后验概率准则(Structure maximum aposteriori probability, SMAP)应用到语音合成的说话人自适应中,并将MLLR,MAP,SMAP等方法结合使用.通过一系列对参数、数据选取等实验,本文探讨了在语音合成中如何更好地提高说话人自适应后的音质和相似度.实验表明,在结合使用最大后验概率相关准则后,说话人自适应可以取得比MLLR更好的效果.  相似文献   

4.
自适应技术在近年来得到越来越多的重视,其中应用广泛的包括MAP、MLLR,该技术利用少量特定人数据就可以调整码本,快速地提升识别性能,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练(Speaker Adaptive Training,以下简称SAT)算法,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性,从而有更好的性能表现。  相似文献   

5.
本征音自适应是一种快速高效的自适应算法,它被广泛应用到说话人识别中,但由于同一个说话人的本征音自适应的说话人因子之间的信道特征和噪声存在差异,导致了算法的识别精度降低。针对这一问题,提出基于干扰空间投影的本征音说话人识别(EV-NSP)算法。将训练语音通过主成分分析(PCA)方法计算得到干扰投影矩阵;将投影矩阵应用到生成本征音矢量算法中;利用最大似然估计算法自适应地得到说话人因子的估计值。实验结果表明,EV-NSP算法相对于传统的本征音自适应算法识别性能有了较大的提高。  相似文献   

6.
为了提高说话人识别的性能,提出一种基于GMM模型自适应说话人识别方法。该方法能自动根据不同的说话人选取不同时长的语音进行识别,从提取语音特征和计算识别概率两方面减少识别时间,在不降低识别率的前提下,比传统识别方法识别速度有大幅度提高。实验仿真表明,在保持正确识别率97%以上的情况下,总识别速度可提高4倍左右。该方法特别适合基于GMM的大集合说话人识别。  相似文献   

7.
屈丹  杨绪魁  张文林 《自动化学报》2015,41(7):1244-1252
提出了特征空间本征音说话人自适应算法,该方法首先借鉴RATZ 算法的思想,采用高斯混合模型对特征空间中的说话人信息进行建模;其次利用 子空间方法实现对特征补偿项的估计,减少估计参数的数量,在对特征空间精确建 模的同时,降低了算法对自适应数据量的需求.基于微软语料库的中文连续语 音识别实验表明,该算法在自适应数据量极少时仍能取得较好的性能,配合说话人自适 应训练能够进一步降低词错误率,其实时性优于本征音说话人自适应算法.  相似文献   

8.
针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。  相似文献   

9.
利用自适应KLT提出了一种新的语音去噪方法。自适应KLT的语音去噪算法,不需要白化处理,既可以自适应跟踪KLT阵,又能够有效地协调去噪后信号的音质与可懂度之间的矛盾。在说话人识别阶段采用改进的MCE。实验表明,该混合系统确实能够增强说话人辨认的鲁棒性和识别率。  相似文献   

10.
该文针对维吾尔语说话人之间的发音差异会在一定程度上影响维吾尔语语音识别系统的性能这一情况研究了说话人自适应技术,将目前较为常用的MLLR和MAP以及MLLR和MAP相结合的自适应方法应用于维吾尔语连续语音识别的声学模型训练中,并用这三种方法自适应后的声学模型分别在测试集上进行识别实验。实验结果表明MLLR、MAP以及MAP+MLLR自适应方法使基线识别系统的单词错误识别率分别降低了0.6%、2.34%和2.57%。
  相似文献   

11.
The issue of input variability resulting from speaker changes is one of the most crucial factors influencing the effectiveness of speech recognition systems. A solution to this problem is adaptation or normalization of the input, in a way that all the parameters of the input representation are adapted to that of a single speaker, and a kind of normalization is applied to the input pattern against the speaker changes, before recognition. This paper proposes three such methods in which some effects of the speaker changes influencing speech recognition process is compensated. In all three methods, a feed-forward neural network is first trained for mapping the input into codes representing the phonetic classes and speakers. Then, among the 71 speakers used in training, the one who is showing the highest percentage of phone recognition accuracy is selected as the reference speaker so that the representation parameters of the other speakers are converted to the corresponding speech uttered by him. In the first method, the error back-propagation algorithm is used for finding the optimal point of every decision region relating to each phone of each speaker in the input space for all the phones and all the speakers. The distances between these points and the corresponding points related to the reference speaker are employed for offsetting the speaker change effects and the adaptation of the input signal to the reference speaker. In the second method, using the error back-propagation algorithm and maintaining the reference speaker data as the desirable speaker output, we correct all the speech signal frames, i.e., the train and the test datasets, so that they coincide with the corresponding speech of the reference speaker. In the third method, another feed-forward neural network is applied inversely for mapping the phonetic classes and speaker information to the input representation. The phonetic output retrieved from the direct network along with the reference speaker data are given to the inverse network. Using this information, the inverse network yields an estimation of the input representation adapted to the reference speaker. In all three methods, the final speech recognition model is trained using the adapted training data, and is tested by the adapted testing data. Implementing these methods and combining the final network results with un-adapted network based on the highest confidence level, an increase of 2.1, 2.6 and 3% in phone recognition accuracy on the clean speech is obtained from the three methods, respectively.  相似文献   

12.
说话人识别由于其独特的方便性、经济性和准确性等优势,已成为人们日常生活与工作中重要的身份认证方式。然而在实际应用场景下,对说话人识别系统的准确性、鲁棒性、迁移性、实时性等提出了巨大的挑战。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。相较于传统说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等),聚焦于深度学习框架下的说话人识别方法,按照深度学习在说话人识别中的作用方式,将目前的研究分为基于深度学习的特征表达、基于深度学习的后端建模、端到端联合优化三种类别,并分析和总结了其典型算法的特点及网络结构,对其具体性能进行了对比分析。最后总结了深度学习在说话人识别中的应用特点及优势,进一步分析了目前说话人识别研究面临的问题及挑战,并展望了深度学习框架下说话人识别研究的前景,以期推动说话人识别技术的进一步发展。  相似文献   

13.
研究了基于美尔倒谱特征参数及高斯混合模型的文本无关的说话人识别系统,为了提高噪声环境下识别系统的识别率,从两个角度研究改善该系统抗噪性能的方法,即利用语音识别将文本无关的系统转化为文本有关的说话人识别方法和通过选择鲁棒性较强的帧进行说话人识别的方法,分析了以上方法对系统识别性能的改善作用,并通过实验验证上述方法确实可以提高系统在噪声环境下的识别率。  相似文献   

14.
屈微  刘贺平 《计算机应用》2005,25(10):2401-2403
使用独立分量分析(ICA)来提取说话人特征并与矢量量化(VQ)判决方法相结合,实现了一个高性能的基于ICA特征的VQ (ICA VQ)说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率(EER)对比证明了VQ码书设计的有效性。  相似文献   

15.
在基于支持向量机(SVM)的文本无关的说话人确认中,为提高SVM话者模型的训练效率和区分性能,提出2种基于高斯混合模型(GMM)的冒认话者选取方法-通过GMM概率评分,为每个目标说话人选取最接近的话者作为冒认话者用于SVM话者模型的训练,不仅提高模型的训练效率,而且提高SVM模型的区分性,有效地改进系统性能。在NIST’04 Iside—Iside数据库上的实验表明该方法的有效性。  相似文献   

16.
This paper presents an efficient approach for automatic speaker identification based on cepstral features and the Normalized Pitch Frequency (NPF). Most relevant speaker identification methods adopt a cepstral strategy. Inclusion of the pitch frequency as a new feature in the speaker identification process is expected to enhance the speaker identification accuracy. In the proposed framework for speaker identification, a neural classifier with a single hidden layer is used. Different transform domains are investigated for reliable feature extraction from the speech signal. Moreover, a pre-processing noise reduction step, is used prior to the feature extraction process to enhance the performance of the speaker identification system. Simulation results prove that the NPF as a feature in speaker identification enhances the performance of the speaker identification system, especially with the Discrete Cosine Transform (DCT) and wavelet denoising pre-processing step.  相似文献   

17.
18.
句级(Utterance-level)特征提取是文本无关说话人识别领域中的重要研究方向之一.与只能刻画短时语音特性的帧级(Frame-level)特征相比,句级特征中包含了更丰富的说话人个性信息;且不同时长语音的句级特征均具有固定维度,更便于与大多数常用的模式识别方法相结合.近年来,句级特征提取的研究取得了很大的进展,鉴于其在说话人识别中的重要地位,本文对近期具有代表性的句级特征提取方法与技术进行整理与综述,并分别从前端处理、基于任务分段式与驱动式策略的特征提取方法,以及后端处理等方面进行论述,最后对未来的研究趋势展开探讨与分析.  相似文献   

19.
The speaker recognition has been one of the interesting issues in signal and speech processing over the last few decades. Feature selection is one of the main parts of speaker recognition system which can improve the performance of the system. In this paper, we have proposed two methods to find MFCCs feature vectors with the highest similar that is applied to text independent speaker identification system. These feature vectors show individual properties of each person’s vocal tract that are mostly repeated. They are used to build speaker’s model and to specify decision boundary. We applied MFCC of each window over main signal as a feature vector and used clustering to obtain feature vectors with the highest similar. The Speaker identification experiments are performed using the ELSDSR database that consists of 22 speakers (12 male and 10 female) and Neural Network is used as a classifier. The effect of three main parameters have been considered in two proposed methods. Experimental results indicate that the performance of speaker identification system has been improved in accuracy and time consumption term.  相似文献   

20.
说话人识别综述   总被引:1,自引:0,他引:1  
在分析说话人识别原理的基础上,分别从说话人识别的特征提取、说话人模型等方面进行了综述,并讨论了说话人识别的优点和不足,展望了其应用研究的前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号