首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对源说话人与目标说话人之间声学差异过大影响语音转换效果的问题,提出一种基于声道归一化调整的语音转换方法。该方法通过STRAIGHT分析-合成模型提取说话人的个性化特征参数。在频谱训练阶段,对已提取的Mel频率倒谱系数利用声道归一化和高斯混合模型的方法进行训练映射。主观听音测试证明,该方法的转换效果优于传统的不使用声道归一化的高斯混合模型。  相似文献   

2.
语音转换是一种通过改变源说话人语音的个性特征,同时保留说话者语义信息,并将其转换为具有目标说话人个性特征的语音技术.基于LPC分析合成模型的转换系统是一种经典的语音转换系统,但是它并不能准确的分离激励源和声道参数,因此往往给转换过程带来误差,导致最后合成的语音质量下降.本文就此问题提出一种新的思路,即引入一种自适应的声门波分离技术,用来准确的分离激励源和声道参数.同时用"预测"训练法从声道参数中预测激励波形,避免了人工随意修改激励韵律特性所带来的语音质量的恶化.实验结果表明:本文所提出的改进的语音转换系统无论是在谱转换的精确性上,还是在合成语音质量上,都超过了经典的基于LPC分析合成模型的转换系统.  相似文献   

3.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

4.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

5.
源-目标话者的声音转换是一种变换说话人声音特性的技术,它将源说话人的声音转换成另一个指定的目标说话人的声音.对源话者声道谱特性的修改是声音转换的关键之一.为了克服一般分类线性转换算法中分类不准确所带来的误差,本文引入了分类线性加权转换的策略,根据不同子类的转换函数对谱特性的贡献,赋予不同的加权系数,给出了一种基于GMM后验概率加权的线性转换算法.在微软汉语普通话语音数据库上做的四组对比实验表明,该算法在谱转换性能上均有不同程度的提高.  相似文献   

6.
李力  俞一彪 《信号处理》2012,28(2):289-294
传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型(GMM)训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。   相似文献   

7.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

8.
声纹识别技术,形象的说法就是说话人识别技术.它是根据人在说话时产生的波形,以及波形中反映人类心理和生理的特征参数来判断说话人的身份的技术.本文所研究的是与文本有关的说话人确认系统.比较了基于声道的线性预测倒谱系数(LP CC)和基于听觉特性的MEL频率倒谱系数(MFCC)参数特征,得出MFCC对环境存在更高的鲁棒性.并运用了隐形马尔可夫模型(HMM)在MATLAB上实现了语音数字的识别仿真.本实验系统的识别率达到了90%,验证了HMM模型识别的准确性.  相似文献   

9.
MFCC模拟了人的听觉心理效应,相对谱RASTA滤波技术具有补偿环境和声道的动态作用。特征参数RASTA-MFCC结合了两者的优点,其提取通过对原语音信号预加重,分帧,加窗,然后通过Mel滤波器求对数,最后通过DCT求倒谱和RASTA滤波获得。实验证明:RASTA-MFCC参数在语者识别方面相比于MFCC有更大的优势,其更大程度上体现了语音信号激励源声带的信息。  相似文献   

10.
基于MFCC的说话人识别系统   总被引:7,自引:0,他引:7  
说话人识别可以被看作语音识别的一种,是当前的研究热点之一.本文实现的说话人辨认系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-Frequency Ceptral Coefficients ,MFCC)作为特征参数.试验比较了MFCC、差分MFCC组合MFCC分别与VQ、DTW相结合的识别率.得出差分MFCC组合MFCC优于MFCC.  相似文献   

11.
Speaker adaptation techniques are generally used to reduce speaker differences in speech recognition. In this work, we focus on the features fitted to a linear regression‐based speaker adaptation. These are obtained by feature transformation based on independent component analysis (ICA), and the feature transformation matrices are estimated from the training data and adaptation data. Since the adaptation data is not sufficient to reliably estimate the ICA‐based feature transformation matrix, it is necessary to adjust the ICA‐based feature transformation matrix estimated from a new speaker utterance. To cope with this problem, we propose a smoothing method through a linear interpolation between the speaker‐independent (SI) feature transformation matrix and the speaker‐dependent (SD) feature transformation matrix. From our experiments, we observed that the proposed method is more effective in the mismatched case. In the mismatched case, the adaptation performance is improved because the smoothed feature transformation matrix makes speaker adaptation using noisy speech more robust.  相似文献   

12.
周宇欢  张雄伟  付强  徐鑫  王金明 《信号处理》2011,27(12):1914-1919
语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高。本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音(2秒)说话人识别。通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法。然后结合语信号的分形特点,提出一种语音的多分形谱簇特征(Multifractal Spectrum Cluster Feature, MSCF)的提取方法。最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8%。   相似文献   

13.
噪声鲁棒性是影响话者确认系统实用化的关键问题之一,为了提高系统的噪声鲁棒性,本文设计了基于子带隐Markov模型(HMM)和多层感知机(MLP)的话者确认系统,系统由多个子带系统所构成,对每个子带分别建立基于背景模型的连续HMM话者确认模型,采用MLP对各个子带HMM的输出进行非线性拟合,并利用MLP直接做确认判决,在与文本有关的话者确认实验中,本文提出的模型较常规基于背景模型的HMM话者模型在确认性能和噪声鲁棒性上均有所提高,实验进一步表明,利用MLP进行拟合和判决在一定程度上解决了话者确认阈值设置的困难,有效地提高了确认系统的鲁棒性。  相似文献   

14.
为了进一步提高基于传统的GMM模型的说话人辨识的识别率,引入了GMM-UBM模型,并且在特征提取方面采用多种特征参数组合来代替单一特征参数,以提高有效特征维数来弥补特征样本的不足,同时在说话人辨识的端点检测部分,用基于MFCC相似度和谱熵的端点检测方法来代替传统的基于短时能量和过零点的方法,以解决其对含噪语音检测不准确而影响说话人辨识的问题。实验表明,与传统的GMM模型相比,GMM-UBM模型能够有效地提高说话人辨识的性能,并且使用组合特征参数和利用基于MFCC相似度和谱熵的端点检测方法都可以进一步提高说话人辨识的性能。  相似文献   

15.
This paper improves and presents an advanced method of the voice conversion system based on Gaussian Mixture Models (GMM) models by changing the time-scale of speech. The Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum (STRAIGHT) model is adopted to extract the spectrum features, and the GMM models are trained to generate the conversion function. The spectrum features of a source speech will be converted by the conversion function. The time-scale of speech is changed by extracting the converted features and adding to the spectrum. The conversion voice was evaluated by subjective and objective measurements. The results confirm that the transformed speech not only approximates the characteristics of the target speaker, but also more natural and more intelligible.  相似文献   

16.
A new method for representation of speech spectra based on a pole-zero decomposition technique is proposed in this paper. In this method the parameters of a pole-zero model for the smoothed short-time spectrum of speech are determined by adopting a cepstral matching criterion. The cepstral coefficients of the impulse response of the model are equal to the cepstral coefficients of the signal up to a specified number which determine the order of the model system. This is analogous to autocorrelation matching in linear prediction analysis. It is shown that the model spectrum represents both peaks and valleys of the smoothed spectrum equally well, unlike the all pole model of linear prediction analysis where only the peaks are well represented. The pole and zero parameters are derived in an identical manner by approximately deconvolving the pole and zero contributions in the cepstral domain. The residual from the inverse pole-zero system can be used to obtain information about the excitation signal.  相似文献   

17.
基于压缩感知的稳健性说话人识别   总被引:1,自引:1,他引:0  
单进  芮贤义 《电声技术》2011,35(2):61-63
阐述了在噪声条件下,将基于压缩感知理论的丢失数据重建技术应用于说话人识别系统的系统前端.首先使用Mel滤波器组将带噪语音信号转换成Mel频谱,然后利用带噪MeI谱中可靠数据重建不可靠数据,最后从重建的Mel频谱中提取Mel倒谱特征参数用于说话人识别.稳健性实验结果表明,该方法能够提高在噪声环境下说话人系统的识别率.  相似文献   

18.
针对在没有对称语音库的情况下,该文提出了一种基于混合线性变换的语声转换算法,在最大似然估计准则下,使用EM迭代算法计算变换函数的参量。为了减小线性加权对语音谱包络的平滑作用,使用线性调频Z变换来调节语音信号的LPC系数。客观评测和主观感受的实验结果都表明,基于混合线性变换的语声转换算法也可以取得与传统语声转换技术相当的转换效果,解除了传统语声转换技术需要对称语音库的要求。  相似文献   

19.
There is no fundamental difference between lag-windowing a correlation sequence and multiple-windowing a data sequence when the objective is to reduce the mean-squared error of a spectrum estimator. By analyzing the approximate low-rank factorization of a bandlimiting Toeplitz operator, we find that lag-windowed (or spectrally smoothed) spectrum estimators have multiple-data-windowed implementations. This makes the Blackman-Tukey-Grenander-Rosenblatt spectrogram equivalent to the Thomson spectrum estimator (and vice-versa), meaning BTGR spectrograms may be implemented in a multichannel filterbank version of the Thomson estimator.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号