共查询到19条相似文献,搜索用时 140 毫秒
1.
2.
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。 相似文献
3.
4.
语声转换通过改变语音信号的声学特征参数来调整语音的个性特征,从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况,在描述语声转换技术的应用场景和系统框架的基础上,着重阐述了系统的转换模块,即声道特性的转换和韵律转换,特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法,最后对全文进行了总结,并针对当前语声转换技术还存在的一些问题,对未来的发展进行了展望。 相似文献
5.
针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据KullbackLeibler(KL)距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。客观测试和主观听觉实验都表明由于该文算法采用了更加精确的矢量对齐方法,能取得比INCA算法更优异的转换性能。 相似文献
6.
为了解决低信噪比条件下现有语音活动检测算法可靠性难以保证的问题,提出长时子带能量变化特征,度量短时谱子带能量沿时间轴的变化程度。基于TIMIT语音库采用高斯混合模型评价所提特征的性能。实验结果表明,在五种噪声的不同信噪比条件下,提出的语音活动检测算法性能优于传统的VAD。 相似文献
7.
8.
语音端点检测作为语音信号处理前端处理部分的一个重要环节,是各种语音任务的基础。基于深度神经网络的语音端点检测在数据支撑上需要对语音进行大量帧级别的标注,针对此问题,文中提出一种基于原型网络(ProtoNet)的小样本学习(Few-shot Learning)的语音端点检测算法,进一步减少在语音端点检测算法过程中因帧级别数据标注带来的繁琐工作。该算法利用所给出的标签计算出一个分类中心,通过计算查询点到分类中心的距离将未给出标签的查询点归类到分类中心,得到一个原型中心;在测试集上,计算测试集中的查询点与原型中心的距离并进行测试。实验语料基于MUSAN语音库,使用该语音库自带的噪声库进行加噪。实验结果表明,在各种环境噪声下,基于小样本学习的语音端点检测算法的性能优于基于深度神经网络的语音端点检测算法,而且该算法能够显著减少语音端点检测算法的数据准备工作量与系统数据量。 相似文献
9.
10.
本文提出了一种基于线性预测残差倒谱的多语音基音频率检测算法,该算法首先对混合语音信号进行线性预测分析,进而计算预测信号与原混合信号的残差,并对残差信号做倒谱变换,得到混合语音信号的线性预测残差倒谱;然后在该信号的残差倒谱中,结合图像处理的技术,利用语音信号基音倒频匹配法检测出多语音信号的基音频率;最后在基音标定的过程中,本文算法利用语音信号的连续特性,依据信号基音频率前后差距变化最小原则标记出各基音所属话者。实验结果表明,本文提出的算法在弱回声及无回声的情况下能快速有效地从单声道混合语音信号中检测出多语音基音信息。 相似文献
11.
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法. 相似文献
12.
B. Ramani M. P. Actlin Jeeva P. Vijayalakshmi T. Nagarajan 《Circuits, Systems, and Signal Processing》2016,35(4):1283-1311
For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary. 相似文献
13.
在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。 相似文献
14.
提出一种增强变分自编码器进行非平行语料语音转换的新方法。源语音首先经过编码网络生成一个服从高斯分布的语音编码,解码网络将该语音编码重构为指定的目标语音,最后通过增强网络优化生成的目标语音。增强网络的一个输入对应一个输出的,这使得整体转换系统有较好的去噪能力。此外,本文还引入了循环训练方法以改善转换语音的目标倾向性。实验结果显示,与基准语音转换系统相比,本文提出的增强变分自编码器语音转换系统在跨性别语音转换上的客观评价指标谱失真上下降10.3%,在主观评价指标相似度与清晰度方面同样有所改善。这一结果表明,本文提出的方法能够使转换语音具有良好目标倾向性,同时有较好的语音转换质量。 相似文献
15.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。 相似文献
16.
本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。 相似文献
17.
研究多用户MIMO下行链路中最小和均方误差意义下线性预编码器/译码器的设计问题.针对该非线性、非凸性的优化问题,传统的联合优化算法性能有限且复杂度较高.提出一种新的设计方案.该方案首先利用信道正交化技术将MIMO下行信道分解成多个并行的等效单用户MIMO信道,然后通过解这些等效MIMO信道上的单用户均方误差最小化问题来获得和均方误差最小问题的近似解.仿真结果显示,该方案的性能要优于传统的联合优化算法. 相似文献
18.
Sung-Min Oh Sunghyun Cho Jae-Hyun Kim Jonghyung Kwun 《Communications Letters, IEEE》2008,12(5):374-376
This letter proposes an efficient uplink scheduling algorithm for voice over Internet protocol (VoIP) services with adaptive multi-rate (AMR) speech codec in IEEE 802.16e/m systems. The proposed scheduling algorithm adopts the random access scheme during silent-period to reduce the waste of uplink bandwidth considering the characteristics of AMR speech codec. The numerical results show that the proposed algorithm can increase the maximum supportable number of voice users by 26% compared to the conventional extended real-time polling service (ertPS). 相似文献