首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
语音转换是一种通过改变源说话人语音的个性特征,同时保留说话者语义信息,并将其转换为具有目标说话人个性特征的语音技术.基于LPC分析合成模型的转换系统是一种经典的语音转换系统,但是它并不能准确的分离激励源和声道参数,因此往往给转换过程带来误差,导致最后合成的语音质量下降.本文就此问题提出一种新的思路,即引入一种自适应的声门波分离技术,用来准确的分离激励源和声道参数.同时用"预测"训练法从声道参数中预测激励波形,避免了人工随意修改激励韵律特性所带来的语音质量的恶化.实验结果表明:本文所提出的改进的语音转换系统无论是在谱转换的精确性上,还是在合成语音质量上,都超过了经典的基于LPC分析合成模型的转换系统.  相似文献   

2.
声音转换技术的研究与进展   总被引:20,自引:0,他引:20       下载免费PDF全文
左国玉  刘文举  阮晓钢 《电子学报》2004,32(7):1165-1172
声音转换是一项改变说话人声音特征的技术,可以将一人的语音模式转换为与其特性不同的另一人语音模式.声音转换算法的目标是确定一个什么样的模式转换规则,使转换语音保持第一个说话人原有语音信息内容不变,而具有第二个说话人的声音特点.本文介绍了当前声音转换技术领域的研究状态,主要分析现有声音转换技术中各种转换算法的实现原理,描述声音转换系统性能的各种评估方法,最后给出了对声音转换技术的简要评述和展望.  相似文献   

3.
采用STRAIGHT语音分析一合成模型,提取源说话人和目标说话人的基频和光滑声道谱作为表征语音特征的参数。在频谱训练阶段,把声道谱转换成MFCC参数,采用人工神经网络算法对源一目标说话人的MFCC参数进行训练映射。主观和客观试验结果表明,该方法能取得较好的转换效果,转换语音和目标语音较接近,易于理解。  相似文献   

4.
针对源说话人与目标说话人之间声学差异过大影响语音转换效果的问题,提出一种基于声道归一化调整的语音转换方法。该方法通过STRAIGHT分析-合成模型提取说话人的个性化特征参数。在频谱训练阶段,对已提取的Mel频率倒谱系数利用声道归一化和高斯混合模型的方法进行训练映射。主观听音测试证明,该方法的转换效果优于传统的不使用声道归一化的高斯混合模型。  相似文献   

5.
语音合成技术是人机语声通信领域中的一项重要研究课题,近年来,它随着数字信号处理技术和大规模集成电路的发展取得了很大的进展,其中尤以线性预测编码(简称LPC)分析合成技术比较成功,目前正在计算机语声响应系统和声码器等方面得到实际的应用。本文介绍了应用LPC技术的一种微机语声响应系统,这个系统采用了基于LPC原理制成的单片语音合成处理器TMS5220,因此结构十分简单,通用性强,实时合成的语音清晰、自然。文中还介绍了在这个系统基础上开发出来的一些应用实例,重点介绍了114自动查号台报号系统,该系统把微机查找到的单位电话号码用合成语音报给用户,具有多个声道同时输出的能力;它可以直接和PC机I/O通道连接,故很容易推广到需要语声响应系统的各种计算机检索和查询的场合。最后简单地讨论了LPC技术的局限性和发展方向以及进一步开发微机语声响应系统的一些问题。  相似文献   

6.
源-目标话者的声音转换是一种变换说话人声音特性的技术,它将源说话人的声音转换成另一个指定的目标说话人的声音.对源话者声道谱特性的修改是声音转换的关键之一.为了克服一般分类线性转换算法中分类不准确所带来的误差,本文引入了分类线性加权转换的策略,根据不同子类的转换函数对谱特性的贡献,赋予不同的加权系数,给出了一种基于GMM后验概率加权的线性转换算法.在微软汉语普通话语音数据库上做的四组对比实验表明,该算法在谱转换性能上均有不同程度的提高.  相似文献   

7.
自动说话人识别   总被引:7,自引:0,他引:7  
本文以语音信号LPC倒谱系数作为识别特征,运用矢量量化技术实现自动说话人识别.在一个42人、7700个语音的数据库上,我们进行了系统的识别实验,研究了不同系统参数对识别率的影响,得到了不少有参考价值的结果.本文还介绍了在此基础上研制成功的一个实时语声交互式身份确认系统,该系统作为计算机的语音锁,正确识别率达到95%以上.  相似文献   

8.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

9.
语音转换及相关技术综述   总被引:20,自引:0,他引:20  
给出了语音转换的定义,介绍了语音转换的用途,分析了表征说话人个性特征的语音参数,研究了语音转换的系统结构,对语音转换的实现主要从频谱包络和韵律两个方面的转换进行了研究讨论,分析并介绍了语音转换现在的发展水平及存在的问题。  相似文献   

10.
声纹识别技术,形象的说法就是说话人识别技术.它是根据人在说话时产生的波形,以及波形中反映人类心理和生理的特征参数来判断说话人的身份的技术.本文所研究的是与文本有关的说话人确认系统.比较了基于声道的线性预测倒谱系数(LP CC)和基于听觉特性的MEL频率倒谱系数(MFCC)参数特征,得出MFCC对环境存在更高的鲁棒性.并运用了隐形马尔可夫模型(HMM)在MATLAB上实现了语音数字的识别仿真.本实验系统的识别率达到了90%,验证了HMM模型识别的准确性.  相似文献   

11.
For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary.  相似文献   

12.
This paper improves and presents an advanced method of the voice conversion system based on Gaussian Mixture Models (GMM) models by changing the time-scale of speech. The Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum (STRAIGHT) model is adopted to extract the spectrum features, and the GMM models are trained to generate the conversion function. The spectrum features of a source speech will be converted by the conversion function. The time-scale of speech is changed by extracting the converted features and adding to the spectrum. The conversion voice was evaluated by subjective and objective measurements. The results confirm that the transformed speech not only approximates the characteristics of the target speaker, but also more natural and more intelligible.  相似文献   

13.
吴则诚  飞龙  张晖  王海波 《信号处理》2021,37(10):1825-1834
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。   相似文献   

14.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

15.
This paper proposes a flexible method for pitch contour modification using the instants of significant excitation of the vocal tract system during the production of speech. The instants of significant excitation correspond to the instants of glottal closure (epochs) in the case of voiced speech, and to some random excitations like onset of burst in the case of nonvoiced speech. Instants of significant excitation are computed from the Linear Prediction (LP) residual of speech signals by using the property of average group-delay of minimum phase signals. The modification of pitch contour is achieved by manipulating the LP residual with the help of the knowledge of the instants of significant excitation. The modified residual is used to excite the time-varying filter, whose parameters are derived from the original speech signal. Perceptual quality of the synthesized speech is good, and is without any significant distortion. The proposed method is evaluated using waveforms, spectrograms and listening tests. Listening tests are performed on voice conversion application, where the source speaker’s pitch contour is modified by the proposed method according to the target speaker’s pitch contour. The performance of the proposed method is compared with Linear Prediction Pitch Synchronous Overlap and Add (LP-PSOLA) method using listening tests, for the voice conversion application.  相似文献   

16.
王超  俞一彪 《信号处理》2021,37(7):1339-1345
基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder, VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder, VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。   相似文献   

17.
支持向量回归在声音转换中的应用   总被引:1,自引:1,他引:0  
声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。将3种不同的回归方法:多项式回归,线性多变量回归以及支持向量回归分别应用于声音转换。实验分别对5个普通话元音进行转换。主观和客观评估了每种方法的语音转换质量。结果表明,支持向量回归具有更强的学习能力,使转换语音具有更好的目标倾向性。与多项式回归和线性多变量回归相比,支持向量回归既提高了泛化能力又避免了频谱不连续性,使转换语音与目标语音的频谱距离失真分别减少了33.29%和35.24%。  相似文献   

18.
飞机语音告警系统语音信息的录制工作存在受人员、环境限制及操作繁琐等问题,本文提出了解决方案:建立了一种通用的语音报警系统语音库,阐明了该系统的基本原理、建立过程和人机交互的实现。  相似文献   

19.
传统语音转换方法利用说话人声音特征映射实现,容易造成过平滑(over-smoothing)和过拟合(over-fitting)问题。本文从语音信号内容与形式分离角度,利用隐变量模型提出了一种全新的语音转换方法。首先利用包含两个隐变量因子的隐变量模型(Latent Variable Model, LVM)建立语音信号的生成模型;然后采用最大似然方法把语音信号分解成表示语义的内容信息和体现说话人特征的形式信息,并估计出模型参数;最后基于LVM生成模型,利用说话人形式替换方法实现语音转换。主、客观测试结果表明,在相同训练集条件下,本文提出的语音转换方法性能明显优于GMM方法,并且隐变量模型和传统的双线性模型(Bilinear Model)相比,由于采用非线性关系描述内容与形式之间的相互作用,因此分离效果更好,语音转换质量更高。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号