期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李力俞一彪《信号处理》2012,28(2):289-294

传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型（GMM）训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。相似文献

2.

基于正弦谐波模型和BP神经网络的语音变换算法及实现 总被引：3，自引：1，他引：2

岳振军王浩张雄伟《信号处理》2005,21(Z1):208-211

提出利用语音的正弦谐波模型和BP神经网络实现语音变换算法.提取语音的基音频率,进行高斯建模和变换,实现说话人韵律特征的变换.提取语音的巴克域倒谱参数,作为说话人的频谱特征,送入BP神经网络进行训练,利用训练好的BP网络实现频谱特征的变换.给出了变换实现的系统框图,进行了仿真实验,利用ABX测试对实验结果进行了评测.测试结果表明文中所述算法,较好地实现了语音变换. 相似文献

3.

基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法

下载免费PDF全文

吴则诚飞龙张晖王海波《信号处理》2021,37(10):1825-1834

语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。相似文献

4.

层次韵律特征对语音情感转换的影响分析

《信息通信》2017,(10)

针对传统以音节为单位的情感语音转换方法不能有效反映韵律的动态变化特征问题,分析音节、韵律词、语句三个层次的韵律特征在不同情感下的变换规律。根据情感语音的层次韵律变换特点,在音节层韵律转换的前提下,结合韵律词和语句级别的韵律变化特征对音节的韵律特征进行修正,实现语音的情感转换。实验结果表明,对于开心、生气和悲伤三种情感语音的转换,采用层次韵律转换的方法可以有效提高情感语音合成的质量。相似文献

5.

基于改进GMM和韵律联合短时谱的说话人转换

张炳俞一彪《信号处理》2009,25(4)

提出了一种基于改进GMM模型和韵律联合短时谱的说话人转换方法.通过在训练阶段引入改进的GMM模型,克服传统GMM模型造成的转换语音过平滑现象,并将线谱对频率LSF和基音频率联合起来组成韵律联合短时谱,更准确地刻画说话人的短时频域特征和声腔的共振特性.实验表明,这种方法能够有效地捕捉说话人的个性化特征和韵律特征.另外,在保证变换语音目标倾向性的同时,一定程度上克服了过平滑现象,提高了变换语音的音质. 相似文献

6.

人脸语音动画中语音特征参数提取算法研究

林睿樊养余《现代电子技术》2011,34(6):74-77

人脸语音动画是虚拟现实领域的热点,语音特征参数提取是实现语音同步动画的前提和关键所在。为了能够提取鲁棒性更好的语音特征参数,在小波变换的理论基础上,借鉴MFCC特征参数的提取方法,运用表征语音动态特征的特征差分算法,提出了一种基于离散小波变换的语音特征参数（DWTMFCC）提取方法,并与反映语音情感特征的韵律参数相结合。通过基于LGB算法的VQ模型进行说话人语音识别,可以得到组合特征参数的识别率较高。相似文献

7.

同语种说话人转换的实现

吕声尹俊勋《移动通信》2004,(Z3)

为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。相似文献

8.

声音转换技术的研究与进展 总被引：20，自引：0，他引：20

下载免费PDF全文

左国玉刘文举阮晓钢《电子学报》2004,32(7):1165-1172

声音转换是一项改变说话人声音特征的技术,可以将一人的语音模式转换为与其特性不同的另一人语音模式.声音转换算法的目标是确定一个什么样的模式转换规则,使转换语音保持第一个说话人原有语音信息内容不变,而具有第二个说话人的声音特点.本文介绍了当前声音转换技术领域的研究状态,主要分析现有声音转换技术中各种转换算法的实现原理,描述声音转换系统性能的各种评估方法,最后给出了对声音转换技术的简要评述和展望. 相似文献

9.

基于韵律特征的说话人确认系统融合研究

童强李辉方昕《通信技术》2013,(11):90-94

提出一种基于超音段韵律特征和GMM—UBM—MAP的文本无关的说话人确认系统,并与基于MFCC特征参数的说话人确认系统融合,研究提出新的两系统融合策略。在超音段中提取基于基频的韵律特征参数,建立辅助系统。融合时,以基准系统基于MFCC特征参数的说话人确认系统为主系统,基于韵律特征参数的系统为辅助系统,当主系统的得分与阈值接近时,将两系统得分融合再判断。通过NIST2006数据库的实验表明,融合系统相对原系统有16．39％的提升。相似文献

10.

语声转换技术发展及展望

简志华杨震《南京邮电学院学报(自然科学版)》2007,27(6):88-94

语声转换通过改变语音信号的声学特征参数来调整语音的个性特征，从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况，在描述语声转换技术的应用场景和系统框架的基础上，着重阐述了系统的转换模块，即声道特性的转换和韵律转换，特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法，最后对全文进行了总结，并针对当前语声转换技术还存在的一些问题，对未来的发展进行了展望。相似文献

11.

基于正弦加噪声模型的说话人转换方法

夏菁尹俊勋黄建成黄锋《电声技术》2005,(2):49-52

提出一种基于正弦加噪声模型的说话人转换方法,着重讨论通过修改音素段内的声学参数实现说话人的转换。通过修改基音频率和共振峰结构,该方法合成的语音有效地模拟了目标说话人的特性。听力测试表明,转换后的语音和目标说话人的语音相似度达到78．8％。与经典的LPC方法的对比实验验证了该法在合成语音质量方面的优越性。相似文献

12.

基于伽马通滤波器组的听觉特征提取算法研究 总被引：2，自引：1，他引：2

王玥钱志鸿王雪程光明《电子学报》2010,38(3):525-528

本文从模拟人类听觉角度出发,给出了基于人耳耳蜗听觉模型的伽马通滤波器组模型,测试语音通过该滤波器组输出得到了高维听觉特征向量.经过主成分分析和离散余弦变换,分别得到了可用于表征说话人的伽马通系数和伽马通滤波器倒谱系数及其衍生特征.实验证明,与传统梅尔倒谱特征相比,采用本文提出特征的说话人识别系统在识别率及鲁棒性上均有明显提高. 相似文献

13.

基于三音子模型连续语音声调识别方法

魏瑞莹粱维谦《电声技术》2011,35(8):34-37

作为汉语语音识别的重要组成部分,声调识别具有关键的作用.提出了一种新的基于前后文相关的模型识别方法用以提高汉语连续语音中的识别率.首先介绍用于声调识别的基因轨迹的提取和处理,然后提出6种特征来描述基因轨迹的变化趋势并给出具体的计算公式,利用这些特征并考虑连续语音中前后音节的相关性对基因轨迹造成的变化而建立细分的声调模型... 相似文献

14.

基于状态空间模型的子频带语音转换算法

下载免费PDF全文

徐宁杨震张玲华《电子学报》2010,38(3):646-653

语音转换是一项改变说话人声音特征的技术,该领域主流方法——基于高斯混合模型的全频带参数映射,会导致转换后的语音频谱产生帧间不连续性。本文针对以上问题提出了改进方案：首先引入状态空间模型来模拟语音动态变化特性,其次利用离散小波变换对语音低频和高频部分的参数分为子频带处理。文章最后用主观和客观实验对提出的算法进行的实验仿真和验证。相似文献

15.

基于耳语频谱比较的话者识别方法

董桂官沈勇《电声技术》2011,35(4):51-52,66

通过分析由32人录制的143段汉语耳语语段的耳语频谱,发现同一人的耳语频谱之间的差异远小于不同人的耳语频谱之间的差异.基于此提出了一种通过比较耳语语段的耳语频谱差异,可用于话者识别的方法,并通过实验验证了该方法的可行性. 相似文献

16.

An improved algorithm of GMM voice conversion system based on changing the time-scale

Ying Zhou Linghua Zhang 《电子科学学刊(英文版)》2011,28(4-6):518-523

This paper improves and presents an advanced method of the voice conversion system based on Gaussian Mixture Models (GMM) models by changing the time-scale of speech. The Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum (STRAIGHT) model is adopted to extract the spectrum features, and the GMM models are trained to generate the conversion function. The spectrum features of a source speech will be converted by the conversion function. The time-scale of speech is changed by extracting the converted features and adding to the spectrum. The conversion voice was evaluated by subjective and objective measurements. The results confirm that the transformed speech not only approximates the characteristics of the target speaker, but also more natural and more intelligible. 相似文献

17.

汉语耳元音共振峰与音长特性研究

赵越林玮《电声技术》2016,40(11):48-52

耳语音的声学特征是研究其语音识别和说话人识别的重要组成部分.介绍了耳语音的特点并讨论了其声学特征.由于耳语音没有基频,所以共振峰与音长特性可以作为重要的声学参数用于识别.对汉语6个耳语音元音进行了分析研究,证明共振峰频率和音长可以作为耳语音识别的特征参数. 相似文献

18.

基于条件随机场的汉语词性标注 总被引：1，自引：0，他引：1

于江德葛彦强余正涛《微电子学与计算机》2011,28(10):63-66

近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优. 相似文献

19.

一种采用机器学习的氦语音识别方法

李冬梅李明郭莉莉张士兵《电讯技术》2022,(9)

为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。相似文献

20.

基于分类特征空间高斯混合模型和神经网络融合的说话人识别 总被引：2，自引：0，他引：2

黄伟戴蓓蒨李辉《电子与信息学报》2004,26(10):1607-1612

该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。相似文献