共查询到18条相似文献,搜索用时 171 毫秒
1.
语音转换是近年来随着语音识别与语音合成技术的发展而诞生的,属于语音信号处理领域的一个新方向.语音转换技术不仅能够为很多行业提供便利,还能为语音研究领域提供理论和技术支持.本文首先对语音转换的基本原理和系统进行相应的分析,最后研究通过GMM模型进行语音的转换来合成语音. 相似文献
2.
3.
为5G14433设计语音报数电路 总被引:1,自引:1,他引:0
文中介绍了利用语音电路SR9G26为5G14433设计了语音报数电路,该电路将A/D转换结果通过语音报出,性能可靠,在使用中效果良好。 相似文献
4.
5.
6.
随着情感信息处理的研究不断深入,语音信号中的情感转换越来越受到人们的重视。与传统的信息处理技术不同,语音的情感转换是用机器来实现理解和认识。本文首先探讨了情感的分类;接着,将语音情感转换系统分为:特征提取、参数转换和语音合成,并从特征提取和参数转换两方面进行了阐述,分析了相关的理论及算法,对各方法的优缺点进行了比较。最后,对语音情感转换研究方向进行了讨论。 相似文献
7.
8.
9.
语声转换通过改变语音信号的声学特征参数来调整语音的个性特征,从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况,在描述语声转换技术的应用场景和系统框架的基础上,着重阐述了系统的转换模块,即声道特性的转换和韵律转换,特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法,最后对全文进行了总结,并针对当前语声转换技术还存在的一些问题,对未来的发展进行了展望。 相似文献
10.
11.
在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。 相似文献
12.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。 相似文献
13.
本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。 相似文献
14.
支持向量回归在声音转换中的应用 总被引:1,自引:1,他引:0
声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。将3种不同的回归方法:多项式回归,线性多变量回归以及支持向量回归分别应用于声音转换。实验分别对5个普通话元音进行转换。主观和客观评估了每种方法的语音转换质量。结果表明,支持向量回归具有更强的学习能力,使转换语音具有更好的目标倾向性。与多项式回归和线性多变量回归相比,支持向量回归既提高了泛化能力又避免了频谱不连续性,使转换语音与目标语音的频谱距离失真分别减少了33.29%和35.24%。 相似文献
15.
基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder, VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder, VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。 相似文献
16.
B. Ramani M. P. Actlin Jeeva P. Vijayalakshmi T. Nagarajan 《Circuits, Systems, and Signal Processing》2016,35(4):1283-1311
For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary. 相似文献
17.
一种多路音频编解码系统的设计与实现 总被引:1,自引:1,他引:0
从连续可变斜率增量编码原理及应用背景讲起,重点提出了一种以基于现场可编程门阵列(FPGA)和专用编码转换芯片搭建的群路编码转换系统。该系统架构既吸收了商用芯片的高可靠性优势,同时采用FPGA进行多路调度和适配又增加了设备的灵活性和可扩展性。最后搭建测试了平台对该系统功能性能进行测试。测试结果显示,这里设计的群路编码转换系统性能优良,配置灵活,可扩展性好,具备广阔的市场应用前景。 相似文献
18.
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。 相似文献