期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

翟继友张鹏《计算机技术与发展》2011,21(11)

EM算法是高斯混合模型参数估值的常用方法,该算法有局部收敛的特性,易造成模型的参数估计对于初值较为敏感,往往得到一个局部的最优值.为了对EM算法进行优化,文中将具有全局寻优和并行搜索特性的遗传算法与EM算法相结合,对其加以改进,并用到语音转换过程之中,最后通过仿真实验分析了算法的性能,结果表明使用优化算法得出的高斯混合模型所转换出来的语音,相对于传统EM估计算法得出的高斯混合模型所转换出来的语音,具有较小的失真测度值,证明使用该优化算法能够改善转换后的语音质量. 相似文献

2.

采用STRAIGHT模型和深度信念网络的语音转换方法

王民苏利博王稚慧要趁红《计算机工程与科学》2016,38(9):1950-1954

提出一种将STRAIGHT模型和深度信念网络DBN相结合实现语音转换的方式。首先,通过STRAIGHT模型提取出源说话人和目标说话人的语音频谱参数,用提取的频谱参数分别训练两个DBN得到语音高阶空间的个性特征信息;然后,用人工神经网络ANN将两个具有高阶特征的空间连接并进行特征转换;最后,用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到语音频谱参数,并用STRAIGHT模型合成具有目标说话人个性化特征的语音。实验结果表明,采用此种方式获得的语音转换效果要比传统的采用GMM实现语音转换更好,转换后的语音音质和相似度与目标语音更接近。相似文献

3.

一种基于正弦激励的线性预测模型的语音转换方法

尹伟易本顺《数据采集与处理》2010,25(2)

在正弦激励模型的线性预测(LP)残差转换的基础上,提出了一种改进语音特征转换性能的语音转换方法.基于线性预测分析和综合的构架,该方法一方面通过谱包络估计声码器提取源说话人的线性预测编码(LPC)倒谱包络,并使用双线性变换函数实现倒谱包络的转换;另一方面由谐波正弦模型对线性预测残差信号建模和分解,采用基音频率变换将源说话人的残差信号转换为近似目标说话人的残差信号.最后由修正后的残差信号激励时变滤波器得到转换语音,滤波器参数通过转换得到的LPC倒谱包络实时更新.实验结果表明,该方法在主观和客观测试中都具有良好的结果,能有效地转换说话人声音特征,获得高相似度的转换语音. 相似文献

4.

基于STRAIGHT模型的语音转换的研究

马欢《广东电脑与电讯》2009,(1)

随着语音产品在现代社会中的日益推广和普及,语声转换技术也将有着越来越广泛的应用。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。本文主要就语音转换所采用的STRAIGHT模型、所提取的参数、训练所用的高斯混合模型进行了讨论。相似文献

5.

基于GMM和ANN混合模型的语音转换方法

姚绍芹张玲华《数据采集与处理》2014,29(2):227-231

为了克服利用高斯混合模型(GMM)进行语音转换的过程中出现的过平滑现象,考虑到GMM模型参数的均值能够表征转换特征的频谱包络形状,本文提出一种基于GMM与ANN混合模型的语音转换,利用ANN对GMM模型参数的均值进行转换;为了获取连续的转换频谱,采用静态和动态频谱特征相结合来逼近转换频谱序列;鉴于基频对语音转换的重要性,在频谱转换的基础上,对基频也进行了分析和转换。最后,通过主观和客观实验对提出的混合模型的语音转换方法的性能进行测试,实验结果表明,与传统的基于GMM模型的语音转换方法相比,本文提出的方法能够获得更好的转换语音。相似文献

6.

基于双因子高斯过程动态模型的声道谱转换方法

孙新建张雄伟杨吉斌曹铁勇钟新毅《自动化学报》2014,40(6):1198-1207

针对作者已经提出的双因子高斯过程隐变量模型（Two-factor Gaussian process latent variable model,TF-GPLVM）用于语音转换时未考虑语音的动态特征,并且模型训练时需要估计的参数较多的问题,提出引入隐马尔科夫模型（Hidden Markov model,HMM）对语音动态特征进行建模,并利用HMM隐状态对各帧语音进行关于语义内容的概率软分类,建立了分离精度更高、运算负荷较小的双因子高斯过程动态模型（Two-factor Gaussian process dynamic model,TF-GPDM）.基于此模型,设计了一种全新的基于说话人特征替换的语音声道谱转换方案.主、客观实验结果表明,无论是与传统的统计映射和频率弯折转换方法相比,还是与双因子高斯过程隐变量模型方法相比,本文方法都获得了语音质量和转换相似度的提升,以及两项性能的更佳平衡. 相似文献

7.

中文文语转换系统中基于决策树的基频模型提取

谢崇文柴佩琪《微型电脑应用》2007,23(7):4-7

普通话是有调语言,基频是TTS系统中选择单元时一个非常重要的参数。为了能根据基频这个声学参数来选择语音单元,就必须建立文本上下文环境信息与基频曲线之间映射关系,即基频模型。本文将通过决策树的方法来提取这个模型,并将这上模型应用到普通话的文—语转换系统中。相似文献

8.

以语音出现时频相关性为基础的语音掩模估计

战鸽黄兆琼应冬文潘接林颜永红《软件学报》2016,27(S2):64-68

在二维的时频域网格结构中,相邻点上语音信号的存在与否是相关的,传统的马尔可夫链不能对二维的时频相关性进行自适应的建模.基于语音信号在时频域中的相关性,提出了一种利用二维的相关模型估计语音掩模的方法.该方法将时频域中带噪语音信号的对数功率谱划分为语音和非语音类,利用时域中的状态转移概率和前向因子描述语音信号的时域相关性,同时利用频域中的状态转移概率和邻域因子描述语音信号的频域相关性.通过全局的统计最优化,该模型将时域相关性和频域相关性相结合.给出了该模型的序贯化更新方法,逐帧更新模型并估计语音出现概率.在当前已知对数功率谱和模型参数的条件下,通过最大化后验概率得到的语音信号状态矩阵可以作为语音掩模的最优估计.将该方法与几种现有的语音掩模在线估计方法进行比较,实验结果显示出了该方法的优越性. 相似文献

9.

有色噪声环境中鲁棒语音特征参数提取研究

邹大勇李玲《计算机仿真》2011,28(5)

针对复杂噪声干扰环境中语音特征参数会发生改变,引起训练模型和测试语音之间的失配,使语音识别系统的识别率降低,为提高语音特征参数在色噪声环境中提取的鲁棒性,提出了基于总体最小二乘旋转不变子空间技术(TLS-ESPRIT)谐波倒谱加权谱鲁棒特征参数提取方法.运用TLS-SVD方法对观测数据矩阵进行广义特征值分解估计谐波模型的参数,实现了有色噪声背景下语音信号的最优估计.在重建语音的过程中根据谐波能量与带噪语音能量的比值,对重建谐波的各个谐波峰给予不同的加权和语音建模,并进行仿真,结果实现了鲁棒性特征参数的提取,解决了模型之间的失配问题. 相似文献

10.

歌词到歌曲转换系统的实现

下载免费PDF全文

李锦珑杨鸿武梁青青裴东刘慧娟《计算机工程与应用》2010,46(16):124-126

将文语转换技术与语音修改技术相结合,实现了一个歌词到歌曲的转换系统。首先利用一个文语转换系统将输入的歌词转换为语音,同时从歌曲的MIDI文件中提取歌曲的旋律参数,最后通过旋律控制模型对语音信号的声学特征进行修改,实现由歌词到歌曲的转换。实验结果表明,系统合成的歌曲达到了3.29的平均MOS得分。相似文献

11.

针对语音变换的语音篡改检测

丁琦平西建《数据采集与处理》2012,27(1):57-62

针对使用语音变换技术的语音篡改,提出一种自动检测方法。在分析语音变换基本模型和变换语音失真的基础上,提取语音信号的声道参数以及相关的信号统计量,并通过支持向量机递归特征消除法,选择出对语音变换比较敏感的特征作为分类特征,使用支持向量机进行语音变换检测和变换语音的说话人性别判别。对于一种语音变换软件的实验结果表明,该方法具有较高的检测准确率,其中语音变换检测的平均准确率为94.90%,变换语音的说话人性别判别平均准确率为92.09%。相似文献

12.

Statistical Approach for Voice Personality Transformation 总被引：1，自引：0，他引：1

Lee K.-S. 《IEEE transactions on audio, speech, and language processing》2007,15(2):641-651

A voice transformation method which changes the source speaker's utterances so as to sound similar to those of a target speaker is described. Speaker individuality transformation is achieved by altering the LPC cepstrum, average pitch period and average speaking rate. The main objective of the work involves building a nonlinear relationship between the parameters for the acoustical features of two speakers, based on a probabilistic model. The conversion rules involve the probabilistic classification and a cross correlation probability between the acoustic features of the two speakers. The parameters of the conversion rules are estimated by estimating the maximum likelihood of the training data. To obtain transformed speech signals which are perceptually closer to the target speaker's voice, prosody modification is also involved. Prosody modification is achieved by scaling excitation spectrum and time scale modification with appropriate modification factors. An evaluation by objective tests and informal listening tests clearly indicated the effectiveness of the proposed transformation method. We also confirmed that the proposed method leads to smoothly evolving spectral contours over time, which, from a perceptual standpoint, produced results that were superior to conventional vector quantization (VQ)-based methods 相似文献

13.

基于GMM和概率修正码本的源-目标说话人声门波转换

孙俊戴蓓蒨张剑《数据采集与处理》2007,22(1):19-24

提出了一种用于源-目标说话人声门波导数参数转换的、基于勒让德正交分解的声门波导数波形参数提取方法。该方法将声门波导数波形在6维正交勒让德坐标系中的投影构成了描述其形状的特征矢量,并采用基于GMM的概率分类加权转换算法,使每个特征矢量的转换规则可由多个类所对应的规则的线性加权组合得到,可以使转换性能得到较大的提高。在此基础上,又给出了一种基于GMM的声门波导数波形的码本修正算法,以弥补声门波导数波形参数化而损失的含有说话人个性特征的高频送气分量和波纹分量。实验结果表明,本文方法转换性能明显好于基于矢量量化(VQ)的码本映射算法。相似文献

14.

Singer identification based on computational auditory scene analysis and missing feature methods

Ying Hu Guizhong Liu 《Journal of Intelligent Information Systems》2014,42(3):333-352

A major challenge for the identification of singers from monaural popular music recording is to remove or alleviate the influence of accompaniments. Our system is realized in two stages. In the first stage, we exploit computational auditory scene analysis (CASA) to segregate the singing voice units from a mixture signal. First, the pitch of singing voice is estimated to extract the pitch-based features of each unit in an acoustic vector. These features are then exploited to estimate the binary time-frequency (T-F) masks, where 1 indicates that the corresponding T-F unit is dominated by the singing voice, and 0 indicates otherwise. These regions dominated by the singing voice are considered reliable, and other units are unreliable or missing. Thus the acoustic vector is incomplete. In the second stage, two missing feature methods, the reconstruction of acoustic vector and the marginalization, are used to identify the singer by dealing with the incomplete acoustic vectors. For the reconstruction of acoustic vector, the complete acoustic vector is first reconstructed and then converted to obtain the Gammatone frequency cepstral coefficients (GFCCs), which are further used to identify the singer. For the marginalization, the probabilities that the voice belonging to a certain singer are computed on the basis of only the reliable components. We find that the reconstruction method outperforms the marginalization method, while both methods have significantly good performances, especially at signal-to-accompaniment ratios (SARs) of 0 dB and ??3 dB, in contrast to another system. 相似文献

15.

基于LabVlEW的语音身份认证系统

唐夫乾汪亚明郑俊褒《工业控制计算机》2011,24(12):22-23

设计了一套基于LabVIEW的语音身份认证系统,以LabVIEW2009为开发平台,采用改进的美尔倒频谱系数法进行语音信号特征提取,采用矢量量化模型进行语音识别,实现了与文本、性别无关的声纹识别.实验结果表明该系统能够有效克服环境噪声、说话人声音变异带来的影响. 相似文献

16.

Cross-correlation portraits of voice signals in the problem of recognizing voice commands according to patterns

V. R. Krasheninnikov A. I. Armer V. V. Kuznetsov E. Yu. Lebedeva 《Pattern Recognition and Image Analysis》2011,21(2):192-194

A way for recognizing voice commands (VCs) in the noises with a probability of proper recognition higher than 92% and a signal/noise ratio of 1–6 dB, if the library of pattern voice commands has been generated directly before recognition, is presented in [1]. This method is based on transformation of voice signals into a 2D image: autocorrelation portrait (ACP). The results become significantly worse if the library is prepared long before the recognition, and this is a disadvantage of this method. In this paper we describe the procedure for generating another type of voice command image, which eliminates (to a considerable degree) this disadvantage. 相似文献

17.

基于音素HMM模型语音转换

钱开华《数字社区&智能家居》2008,(4):132-134

通过对语音转换的研究,提出了一种把源说话人特征转换为目标说话人特征的方法。语音转换特征参数分为两类：（1）频谱特征参数;（2）基音和声调模式。分别描述信号模型和转换方法。频谱特征用基于音素的2维HMMS建模,F0轨迹用来表示基音和音调。用基音同步叠加法对基音厨期、声调和语速进行变换。相似文献

18.

基于音素HMM模型语音转换

QIAN Kai-hua 《数字社区&智能家居》2008,(10)

通过对语音转换的研究,提出了一种把源说话人特征转换为目标说话人特征的方法。语音转换特征参数分为两类:(1)频谱特征参数;(2)基音和声调模式。分别描述信号模型和转换方法。频谱特征用基于音素的2维HMMS建模,F0轨迹用来表示基音和音调。用基音同步叠加法对基音周期﹑声调和语速进行变换。相似文献

19.

噪声条件下电子伪装语音还原方法研究

郑琳琳张雄伟孙蒙李嘉康张星昱《数据采集与处理》2020,35(5)

语音的电子伪装是指采用变声设备或语音处理软件改变说话人的个性特征,以达到故意隐藏该说话人身份的目的。电子伪装语音还原是指通过技术手段将伪装语音变回原声,这对基于语音的身份鉴别具有重要意义。本文将频域和时域伪装语音的还原问题抽象为伪装因子的估计问题,通过基于i-vector的自动说话人确认方法估计伪装因子,并引入对称变换进一步提高估计效果。该方法借助于i-vector的噪声鲁棒性,提高了真实含噪场景下伪装因子的估计精度,从而改进了噪声条件下电子伪装语音的还原效果。在干净语音库TIMIT上训练i-vector并在含噪语音库VoxCeleb1上对本文方法进行测试,结果表明,伪装因子估计的错误率从基线系统的9.19%降低为4.49%,还原语音在自动说话人确认等错误率和听觉感知方面也取得了提升。相似文献

20.

基于i向量和变分自编码相对生成对抗网络的语音转换

李燕萍曹盼左宇涛张燕钱博《自动化学报》2022,48(7):1824-1833

提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换. 相似文献