期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

唐斌《通讯世界》2017,(18)

语音转换是近年来随着语音识别与语音合成技术的发展而诞生的,属于语音信号处理领域的一个新方向.语音转换技术不仅能够为很多行业提供便利,还能为语音研究领域提供理论和技术支持.本文首先对语音转换的基本原理和系统进行相应的分析,最后研究通过GMM模型进行语音的转换来合成语音. 相似文献

2.

基于傅立叶-贝塞尔展开的语音转换算法

岳振军宋巍王浩张雄伟《信号处理》2008,24(2):308-311

文中介绍了基于FB展开的语音信号表示的基本理论,并对用FB展开系数表示语音的能力进行了分析。提出了基于FB展开的语音转换算法,并对该算法进行了仿真实验。对转换后语音所进行的ABX测试表明,该算法能够较好的完成语音转换,转换后语音的自然度和目标人趋向度比较高。相似文献

3.

为5G14433设计语音报数电路 总被引：1，自引：1，他引：0

樊斌《电声技术》1998,(2):15-17

文中介绍了利用语音电路ＳＲ９Ｇ２６为５Ｇ１４４３３设计了语音报数电路，该电路将Ａ／Ｄ转换结果通过语音报出，性能可靠，在使用中效果良好。相似文献

4.

语音接口

Takao 刘吉峰《今日电子》1996,(Z1)

本文讨论了NEC公司新近开发的语音接口系统。首先,给出了个人计算机的语音接口软件,该软件以NEC公司最新的语音识别和语音分析技术为基础。为了使语音识别适应于灵活多变的词汇并且不依赖于发话人,我们开发了以半音节单元为基础的识别方法。为实现高质量的文本——语音的转换,我们开发出一种混合了波形连锁方法与新的韵律产生模型的新方法。此外,还提出了语音对话系统的研究原型,其目的是为了在多媒体环境下实现与信息服务系统的自然语音对话。相似文献

5.

语音万用表的设计与实现

杜恩祥马春庭王宝全《无线电通信技术》2001,27(4):56-57

介绍了语音万用表的一种简便实现方法——在普通万用表输出和语音片输入间加入信号转换电路,实现由数据到语音的转换。这一转换电路采用可编程逻辑器件GAL实现,使电路结构简单、耗电少、非常实用。相似文献

6.

语音情感转换技术综述

周洁《电子工程师》2011,37(1):4-8,23

随着情感信息处理的研究不断深入,语音信号中的情感转换越来越受到人们的重视。与传统的信息处理技术不同,语音的情感转换是用机器来实现理解和认识。本文首先探讨了情感的分类;接着,将语音情感转换系统分为：特征提取、参数转换和语音合成,并从特征提取和参数转换两方面进行了阐述,分析了相关的理论及算法,对各方法的优缺点进行了比较。最后,对语音情感转换研究方向进行了讨论。相似文献

7.

基于LPC模型的DTW语音转换系统设计

《信息通信》2021,(1):71-74

文章重点研究了基于LPC模型的DTW语音转换方法。采用DTW技术进行模型特征参数对齐的优势是:经过数据对齐后,使得人工神经网络算法更好的训练特征参数,得到的映射规则能很好规范要转换的特征参数,使得语音转换质量更高。论文的仿真结果和数据分析表明,基于LPC模型的DTW语音转换系统转换出的语音自然度较高。该研究结论对于语音转换技术的研究与应用,具有参考价值。相似文献

8.

声音转换技术的研究与进展 总被引：20，自引：0，他引：20

下载免费PDF全文

左国玉刘文举阮晓钢《电子学报》2004,32(7):1165-1172

声音转换是一项改变说话人声音特征的技术,可以将一人的语音模式转换为与其特性不同的另一人语音模式.声音转换算法的目标是确定一个什么样的模式转换规则,使转换语音保持第一个说话人原有语音信息内容不变,而具有第二个说话人的声音特点.本文介绍了当前声音转换技术领域的研究状态,主要分析现有声音转换技术中各种转换算法的实现原理,描述声音转换系统性能的各种评估方法,最后给出了对声音转换技术的简要评述和展望. 相似文献

9.

语声转换技术发展及展望

简志华杨震《南京邮电学院学报(自然科学版)》2007,27(6):88-94

语声转换通过改变语音信号的声学特征参数来调整语音的个性特征，从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况，在描述语声转换技术的应用场景和系统框架的基础上，着重阐述了系统的转换模块，即声道特性的转换和韵律转换，特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法，最后对全文进行了总结，并针对当前语声转换技术还存在的一些问题，对未来的发展进行了展望。相似文献

10.

基于BP神经网络的耳语音转换为正常语音的研究 总被引：1，自引：1，他引：0

韩韬陶智顾济华赵鹤鸣李玲《通信技术》2009,42(2)

提出了一种基于BP神经网络的汉语耳语音转换为正常语音的方法.首先提取正常语音、耳语音的共振峰参数,使用BP神经网络训练出耳语音到正常语音共振峰参数的转换模型;然后根据模型求出与耳语音对应的正常语音共振峰参数,采用共振峰合成的方法将耳语音转换为正常语音.实验结果表明:使用该方法转换的正常语音DRT得分为80%,MOS得分为3.5,在可懂度和音质方面均达到了满意的效果. 相似文献

11.

利用频谱搬移控制语音转换中的共振峰

彭柏许刚《电声技术》2007,31(1):39-43

在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。相似文献

12.

基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法

下载免费PDF全文

吴则诚飞龙张晖王海波《信号处理》2021,37(10):1825-1834

语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。相似文献

13.

基于语音个人特征信息分离的语音转换方法研究

马振张雄伟杨吉斌《信号处理》2013,29(4):513-519

本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。相似文献

14.

支持向量回归在声音转换中的应用 总被引：1，自引：1，他引：0

符敏程德福《电声技术》2006,(3):45-48

声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。将3种不同的回归方法:多项式回归,线性多变量回归以及支持向量回归分别应用于声音转换。实验分别对5个普通话元音进行转换。主观和客观评估了每种方法的语音转换质量。结果表明,支持向量回归具有更强的学习能力,使转换语音具有更好的目标倾向性。与多项式回归和线性多变量回归相比,支持向量回归既提高了泛化能力又避免了频谱不连续性,使转换语音与目标语音的频谱距离失真分别减少了33.29%和35.24%。相似文献

15.

矢量量化正则变分自编码器做非平行语料语音转换

下载免费PDF全文

王超俞一彪《信号处理》2021,37(7):1339-1345

基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder, VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder, VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。相似文献

16.

A Multi-level GMM-Based Cross-Lingual Voice Conversion Using Language-Specific Mixture Weights for Polyglot Synthesis

B. Ramani M. P. Actlin Jeeva P. Vijayalakshmi T. Nagarajan 《Circuits, Systems, and Signal Processing》2016,35(4):1283-1311

For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary. 相似文献

17.

一种多路音频编解码系统的设计与实现 总被引：1，自引：1，他引：0

沈佐峰陈曦《通信技术》2012,45(3):79-81

从连续可变斜率增量编码原理及应用背景讲起,重点提出了一种以基于现场可编程门阵列(FPGA)和专用编码转换芯片搭建的群路编码转换系统。该系统架构既吸收了商用芯片的高可靠性优势,同时采用FPGA进行多路调度和适配又增加了设备的灵活性和可扩展性。最后搭建测试了平台对该系统功能性能进行测试。测试结果显示,这里设计的群路编码转换系统性能优良,配置灵活,可扩展性好,具备广阔的市场应用前景。相似文献

18.

采用模型自适应的语音转换方法

下载免费PDF全文

宋鹏王浩赵力《信号处理》2013,29(10):1294-1299

针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率（Maximum A Posteriori,MAP）方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型（Gaussian Mixture Model,GMM）的语音转换方法的效果。相似文献