期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宋鹏王浩赵力《信号处理》2013,29(10):1294-1299

针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率（Maximum A Posteriori,MAP）方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型（Gaussian Mixture Model,GMM）的语音转换方法的效果。相似文献

2.

利用声道归一化提高语音转换效果的方法

周纯静杨卫英《电声技术》2014,(7):42-46

针对源说话人与目标说话人之间声学差异过大影响语音转换效果的问题,提出一种基于声道归一化调整的语音转换方法。该方法通过STRAIGHT分析-合成模型提取说话人的个性化特征参数。在频谱训练阶段,对已提取的Mel频率倒谱系数利用声道归一化和高斯混合模型的方法进行训练映射。主观听音测试证明,该方法的转换效果优于传统的不使用声道归一化的高斯混合模型。相似文献

3.

采用表示分离自编码器的任意说话人语音转换

简志华章子旭《通信学报》2024,(2):162-172

针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法 RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音。实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了5.22%和8.45%。RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能。相似文献

4.

基于正弦加噪声模型的说话人转换方法

夏菁尹俊勋黄建成黄锋《电声技术》2005,(2):49-52

提出一种基于正弦加噪声模型的说话人转换方法,着重讨论通过修改音素段内的声学参数实现说话人的转换。通过修改基音频率和共振峰结构,该方法合成的语音有效地模拟了目标说话人的特性。听力测试表明,转换后的语音和目标说话人的语音相似度达到78．8％。与经典的LPC方法的对比实验验证了该法在合成语音质量方面的优越性。相似文献

5.

采用超音段韵律特征联合短时频谱的语音转换

李力俞一彪《信号处理》2012,28(2):289-294

传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型（GMM）训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。相似文献

6.

基于改进GMM和韵律联合短时谱的说话人转换

张炳俞一彪《信号处理》2009,25(4)

提出了一种基于改进GMM模型和韵律联合短时谱的说话人转换方法.通过在训练阶段引入改进的GMM模型,克服传统GMM模型造成的转换语音过平滑现象,并将线谱对频率LSF和基音频率联合起来组成韵律联合短时谱,更准确地刻画说话人的短时频域特征和声腔的共振特性.实验表明,这种方法能够有效地捕捉说话人的个性化特征和韵律特征.另外,在保证变换语音目标倾向性的同时,一定程度上克服了过平滑现象,提高了变换语音的音质. 相似文献

7.

约束条件下的结构化高斯混合模型及非平行语料语音转换

下载免费PDF全文

车滢霞俞一彪《电子学报》2016,44(9):2282-2288

提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在（Expectation Maximum,EM）迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型（Structured Gaussian Mixture Model with Constraint condition,C-SGMM）.再利用全局声学结构（Acoustic Universal Structure,AUS）原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法. 相似文献

8.

一种汉语语音变换技术

孙卓岳振军《电声技术》2007,31(6):37-40

汉语语音变换技术的目的是将汉语语音中源说话人的语音特征转换为目标说话人语音特征。提出的适用于汉语说话人的变换算法分为3个部分:前两部分用高斯混合模型实现了语音的谱包络(线性预测编码)及其激励(残差)的转换;第三部分采用支持向量回归算法实现语音的韵律变换规则建模,结合汉语语音特点利用基音同步叠加算法实现语音的超音段特征调整。与现有的语音变换算法进行比较,算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,是一种有效的汉语语音变换算法。相似文献

9.

基于STRAIGHT模型和人工神经网络的语音转换

张正军杨卫英陈赞《电声技术》2010,34(9):49-52

采用STRAIGHT语音分析一合成模型,提取源说话人和目标说话人的基频和光滑声道谱作为表征语音特征的参数。在频谱训练阶段,把声道谱转换成MFCC参数,采用人工神经网络算法对源一目标说话人的MFCC参数进行训练映射。主观和客观试验结果表明,该方法能取得较好的转换效果,转换语音和目标语音较接近,易于理解。相似文献

10.

基于声门波分离的预测型语音转换系统

徐宁杨震《信号处理》2009,25(4)

语音转换是一种通过改变源说话人语音的个性特征,同时保留说话者语义信息,并将其转换为具有目标说话人个性特征的语音技术.基于LPC分析合成模型的转换系统是一种经典的语音转换系统,但是它并不能准确的分离激励源和声道参数,因此往往给转换过程带来误差,导致最后合成的语音质量下降.本文就此问题提出一种新的思路,即引入一种自适应的声门波分离技术,用来准确的分离激励源和声道参数.同时用"预测"训练法从声道参数中预测激励波形,避免了人工随意修改激励韵律特性所带来的语音质量的恶化.实验结果表明:本文所提出的改进的语音转换系统无论是在谱转换的精确性上,还是在合成语音质量上,都超过了经典的基于LPC分析合成模型的转换系统. 相似文献

11.

语声转换技术发展及展望

简志华杨震《南京邮电学院学报(自然科学版)》2007,27(6):88-94

语声转换通过改变语音信号的声学特征参数来调整语音的个性特征，从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况，在描述语声转换技术的应用场景和系统框架的基础上，着重阐述了系统的转换模块，即声道特性的转换和韵律转换，特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法，最后对全文进行了总结，并针对当前语声转换技术还存在的一些问题，对未来的发展进行了展望。相似文献

12.

A Multi-level GMM-Based Cross-Lingual Voice Conversion Using Language-Specific Mixture Weights for Polyglot Synthesis

B. Ramani M. P. Actlin Jeeva P. Vijayalakshmi T. Nagarajan 《Circuits, Systems, and Signal Processing》2016,35(4):1283-1311

For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary. 相似文献

13.

支持向量回归在声音转换中的应用 总被引：1，自引：1，他引：0

符敏程德福《电声技术》2006,(3):45-48

声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。将3种不同的回归方法:多项式回归,线性多变量回归以及支持向量回归分别应用于声音转换。实验分别对5个普通话元音进行转换。主观和客观评估了每种方法的语音转换质量。结果表明,支持向量回归具有更强的学习能力,使转换语音具有更好的目标倾向性。与多项式回归和线性多变量回归相比,支持向量回归既提高了泛化能力又避免了频谱不连续性,使转换语音与目标语音的频谱距离失真分别减少了33.29%和35.24%。相似文献

14.

语音伪造及检测技术研究综述

下载免费PDF全文

任延珍刘晨雨刘武洋王丽娜《信号处理》2021,37(12):2412-2439

语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造（Deepfake）正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显著进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1）对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2）对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3）对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。相似文献

15.

基于高斯混合模型和残差预测的说话人转换系统 总被引：1，自引：1，他引：0

吕声尹俊勋黄建成《电声技术》2004,(6):33-36

说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。相似文献

16.

语音转换及相关技术综述 总被引：20，自引：0，他引：20

李波王成友蔡宣平唐朝京张尔扬《通信学报》2004,25(5):109-118

给出了语音转换的定义,介绍了语音转换的用途,分析了表征说话人个性特征的语音参数,研究了语音转换的系统结构,对语音转换的实现主要从频谱包络和韵律两个方面的转换进行了研究讨论,分析并介绍了语音转换现在的发展水平及存在的问题。相似文献