期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于维特比算法的语声转换 总被引：2，自引：0，他引：2

简志华杨震《电子学报》2009,37(7):1470-1475

本文提出了一种基于Viterbi搜索的语声转换算法,利用目标语音帧的转移概率矩阵来描述语音帧的时序信息,通过Viterbi搜索算法来寻找每帧语音的最佳GMM分量,它避免了传统的基于GMM的语声转换算法因丢失语音帧的时序信息所造成的频谱帧间不连续,同时也减少了因加权求平均所带来的语音频谱过于平滑,增强了共振峰.客观评测和主观测试的实验结果都表明,本文算法改善了传统的基于GMM的语声转换算法的性能. 相似文献

2.

采用模型自适应的语音转换方法

下载免费PDF全文

宋鹏王浩赵力《信号处理》2013,29(10):1294-1299

针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率（Maximum A Posteriori,MAP）方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型（Gaussian Mixture Model,GMM）的语音转换方法的效果。相似文献

3.

基于数据驱动的语音库的分析与构建

朱玉玺胡学骏赵慧民《电声技术》2006,(5):50-52

语音数据库和规则库是转换系统中最基本和重要的部分,在进行转换时,根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对基元进行韵律调整合成。针对语音数据库和规则库的建立技术,在GPS嵌入式系统的语音库构建过程中,在与传统方法比较的基础上,给出了基于数据驱动的构建方法,并在特定平台RAM10上,对“文-语”转换技术中的瓶颈之一进行了探讨和实践。相似文献

4.

语声转换技术发展及展望

简志华杨震《南京邮电学院学报(自然科学版)》2007,27(6):88-94

语声转换通过改变语音信号的声学特征参数来调整语音的个性特征，从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况，在描述语声转换技术的应用场景和系统框架的基础上，着重阐述了系统的转换模块，即声道特性的转换和韵律转换，特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法，最后对全文进行了总结，并针对当前语声转换技术还存在的一些问题，对未来的发展进行了展望。相似文献

5.

一种用于语音转换的区域最近邻迭代训练算法

简志华* 王向文《电子与信息学报》2012,34(9):2091-2096

针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据KullbackLeibler(KL)距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。客观测试和主观听觉实验都表明由于该文算法采用了更加精确的矢量对齐方法,能取得比INCA算法更优异的转换性能。相似文献

6.

基于长时子带能量变化特征的语音活动检测

李宝岩《移动通信》2016,(14):25-28

为了解决低信噪比条件下现有语音活动检测算法可靠性难以保证的问题,提出长时子带能量变化特征,度量短时谱子带能量沿时间轴的变化程度。基于TIMIT语音库采用高斯混合模型评价所提特征的性能。实验结果表明,在五种噪声的不同信噪比条件下,提出的语音活动检测算法性能优于传统的VAD。相似文献

7.

基于高斯混合模型及TIMIT语音库的说话人身份识别

《信息通信》2017,(7)

高斯混合模型是指对样本的概率密度分布进行估计,可以看做是对几个高斯模型的加权和。在语音识别中,语音信号的复杂性以及不同采集情况下的随机性都很适合使用高斯混合模型进行估计,文章对高斯混合模型以及其在语音识别中的应用进行研究,在MATLAB环境下,对算法程序进行分析,借助TIMIT语音库对算法进行实现。实验表明,高斯混合模型能够实现对语音信息的识别,并且能够为后续的研究提供框架。相似文献

8.

基于小样本学习的语音端点检测

单蒙米吉提·阿不里米提艾斯卡尔·艾木都拉《现代电子技术》2022,(24):145-150

语音端点检测作为语音信号处理前端处理部分的一个重要环节,是各种语音任务的基础。基于深度神经网络的语音端点检测在数据支撑上需要对语音进行大量帧级别的标注,针对此问题,文中提出一种基于原型网络（ProtoNet）的小样本学习（Few-shot Learning）的语音端点检测算法,进一步减少在语音端点检测算法过程中因帧级别数据标注带来的繁琐工作。该算法利用所给出的标签计算出一个分类中心,通过计算查询点到分类中心的距离将未给出标签的查询点归类到分类中心,得到一个原型中心;在测试集上,计算测试集中的查询点与原型中心的距离并进行测试。实验语料基于MUSAN语音库,使用该语音库自带的噪声库进行加噪。实验结果表明,在各种环境噪声下,基于小样本学习的语音端点检测算法的性能优于基于深度神经网络的语音端点检测算法,而且该算法能够显著减少语音端点检测算法的数据准备工作量与系统数据量。相似文献

9.

简化的LPC-10语音编码算法研究与仿真

潘健刘东杨季可楠《现代电子技术》2006,29(24):108-110

近年来的语音编码算法研究集中在参数编码以及混合编码方式,参数编码和混合编码是基于语音产生模型的编码方法,而线性预测分析技术则是这2种编码算法的基础。讨论LPC线性预测分析技术,主要分析了LPC 10算法的编解码过程,并且通过Matlab仿真,实现了一个简化的LPC 10声码器模型,通过对比重建语音和原始语音研究分析该算法的优缺点。相似文献

10.

基于线性预测残差倒谱的多语音基音频率检测

胡国强金学成《电子技术》2009,36(12):52-54

本文提出了一种基于线性预测残差倒谱的多语音基音频率检测算法,该算法首先对混合语音信号进行线性预测分析,进而计算预测信号与原混合信号的残差,并对残差信号做倒谱变换,得到混合语音信号的线性预测残差倒谱;然后在该信号的残差倒谱中,结合图像处理的技术,利用语音信号基音倒频匹配法检测出多语音信号的基音频率;最后在基音标定的过程中,本文算法利用语音信号的连续特性,依据信号基音频率前后差距变化最小原则标记出各基音所属话者。实验结果表明,本文提出的算法在弱回声及无回声的情况下能快速有效地从单声道混合语音信号中检测出多语音基音信息。相似文献

11.

约束条件下的结构化高斯混合模型及非平行语料语音转换

下载免费PDF全文

车滢霞俞一彪《电子学报》2016,44(9):2282-2288

提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在（Expectation Maximum,EM）迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型（Structured Gaussian Mixture Model with Constraint condition,C-SGMM）.再利用全局声学结构（Acoustic Universal Structure,AUS）原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法. 相似文献

12.

A Multi-level GMM-Based Cross-Lingual Voice Conversion Using Language-Specific Mixture Weights for Polyglot Synthesis

B. Ramani M. P. Actlin Jeeva P. Vijayalakshmi T. Nagarajan 《Circuits, Systems, and Signal Processing》2016,35(4):1283-1311

For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary. 相似文献

13.

利用频谱搬移控制语音转换中的共振峰

彭柏许刚《电声技术》2007,31(1):39-43

在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。相似文献

14.

增强变分自编码器做非平行语料语音转换

下载免费PDF全文

黄国捷金慧俞一彪《信号处理》2018,34(10):1246-1251

提出一种增强变分自编码器进行非平行语料语音转换的新方法。源语音首先经过编码网络生成一个服从高斯分布的语音编码,解码网络将该语音编码重构为指定的目标语音,最后通过增强网络优化生成的目标语音。增强网络的一个输入对应一个输出的,这使得整体转换系统有较好的去噪能力。此外,本文还引入了循环训练方法以改善转换语音的目标倾向性。实验结果显示,与基准语音转换系统相比,本文提出的增强变分自编码器语音转换系统在跨性别语音转换上的客观评价指标谱失真上下降10.3%,在主观评价指标相似度与清晰度方面同样有所改善。这一结果表明,本文提出的方法能够使转换语音具有良好目标倾向性,同时有较好的语音转换质量。相似文献

15.

基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法

下载免费PDF全文

吴则诚飞龙张晖王海波《信号处理》2021,37(10):1825-1834

语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。相似文献

16.

基于语音个人特征信息分离的语音转换方法研究

马振张雄伟杨吉斌《信号处理》2013,29(4):513-519

本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。相似文献

17.

多用户MIMO下行链路中线性预编码器/译码器设计

周光军李昊《信息技术》2008,32(2):45-47,51

研究多用户MIMO下行链路中最小和均方误差意义下线性预编码器/译码器的设计问题.针对该非线性、非凸性的优化问题,传统的联合优化算法性能有限且复杂度较高.提出一种新的设计方案.该方案首先利用信道正交化技术将MIMO下行信道分解成多个并行的等效单用户MIMO信道,然后通过解这些等效MIMO信道上的单用户均方误差最小化问题来获得和均方误差最小问题的近似解.仿真结果显示,该方案的性能要优于传统的联合优化算法. 相似文献

18.

VoIP Scheduling Algorithm for AMR Speech Codec in IEEE 802.16e/m System

Sung-Min Oh Sunghyun Cho Jae-Hyun Kim Jonghyung Kwun 《Communications Letters, IEEE》2008,12(5):374-376

This letter proposes an efficient uplink scheduling algorithm for voice over Internet protocol (VoIP) services with adaptive multi-rate (AMR) speech codec in IEEE 802.16e/m systems. The proposed scheduling algorithm adopts the random access scheme during silent-period to reduce the waste of uplink bandwidth considering the characteristics of AMR speech codec. The numerical results show that the proposed algorithm can increase the maximum supportable number of voice users by 26% compared to the conventional extended real-time polling service (ertPS). 相似文献

19.

基于广义互质双平行阵列的二维DOA估计方法

下载免费PDF全文

王宏何培宇喻伟闯崔敖徐自励《信号处理》2022,38(2):223-231

对于给定阵元数目的传统双平行均匀线阵,由于其阵列布局受到空间采样定理限制,阵列孔径不能有效扩展,二维波达方向(DOA)估计的精度和自由度难以得到有效提升.提出一种基于广义互质双平行阵列的二维DOA估计方法.采用两个互相平行的广义互质线阵进行虚拟扩展得到含有较多虚拟阵元的差分优化阵列,并利用该虚拟阵列的协方差信息和互协... 相似文献