首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于维特比算法的语声转换   总被引:2,自引:0,他引:2       下载免费PDF全文
简志华  杨震 《电子学报》2009,37(7):1470-1475
 本文提出了一种基于Viterbi搜索的语声转换算法,利用目标语音帧的转移概率矩阵来描述语音帧的时序信息,通过Viterbi搜索算法来寻找每帧语音的最佳GMM分量,它避免了传统的基于GMM的语声转换算法因丢失语音帧的时序信息所造成的频谱帧间不连续,同时也减少了因加权求平均所带来的语音频谱过于平滑,增强了共振峰.客观评测和主观测试的实验结果都表明,本文算法改善了传统的基于GMM的语声转换算法的性能.  相似文献   

2.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

3.
语音数据库和规则库是转换系统中最基本和重要的部分,在进行转换时,根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对基元进行韵律调整合成。针对语音数据库和规则库的建立技术,在GPS嵌入式系统的语音库构建过程中,在与传统方法比较的基础上,给出了基于数据驱动的构建方法,并在特定平台RAM10上,对“文-语”转换技术中的瓶颈之一进行了探讨和实践。  相似文献   

4.
语声转换通过改变语音信号的声学特征参数来调整语音的个性特征,从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况,在描述语声转换技术的应用场景和系统框架的基础上,着重阐述了系统的转换模块,即声道特性的转换和韵律转换,特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法,最后对全文进行了总结,并针对当前语声转换技术还存在的一些问题,对未来的发展进行了展望。  相似文献   

5.
针对非对称语音库情况下的语音转换,该文提出一种新的改进的语音转换训练算法ILNCA。与原有的训练算法INCA不一样的是,ILNCA首先利用高斯混合模型(GMM)分别对源、目标语音特征参数空间进行分类。然后根据KullbackLeibler(KL)距离最小原则对源、目标GMM模型的子空间进行匹配,最后利用最近邻准则在相对应的子空间中进行源、目标语音特征参数矢量的对齐。客观测试和主观听觉实验都表明由于该文算法采用了更加精确的矢量对齐方法,能取得比INCA算法更优异的转换性能。  相似文献   

6.
李宝岩 《移动通信》2016,(14):25-28
为了解决低信噪比条件下现有语音活动检测算法可靠性难以保证的问题,提出长时子带能量变化特征,度量短时谱子带能量沿时间轴的变化程度。基于TIMIT语音库采用高斯混合模型评价所提特征的性能。实验结果表明,在五种噪声的不同信噪比条件下,提出的语音活动检测算法性能优于传统的VAD。  相似文献   

7.
高斯混合模型是指对样本的概率密度分布进行估计,可以看做是对几个高斯模型的加权和。在语音识别中,语音信号的复杂性以及不同采集情况下的随机性都很适合使用高斯混合模型进行估计,文章对高斯混合模型以及其在语音识别中的应用进行研究,在MATLAB环境下,对算法程序进行分析,借助TIMIT语音库对算法进行实现。实验表明,高斯混合模型能够实现对语音信息的识别,并且能够为后续的研究提供框架。  相似文献   

8.
语音端点检测作为语音信号处理前端处理部分的一个重要环节,是各种语音任务的基础。基于深度神经网络的语音端点检测在数据支撑上需要对语音进行大量帧级别的标注,针对此问题,文中提出一种基于原型网络(ProtoNet)的小样本学习(Few-shot Learning)的语音端点检测算法,进一步减少在语音端点检测算法过程中因帧级别数据标注带来的繁琐工作。该算法利用所给出的标签计算出一个分类中心,通过计算查询点到分类中心的距离将未给出标签的查询点归类到分类中心,得到一个原型中心;在测试集上,计算测试集中的查询点与原型中心的距离并进行测试。实验语料基于MUSAN语音库,使用该语音库自带的噪声库进行加噪。实验结果表明,在各种环境噪声下,基于小样本学习的语音端点检测算法的性能优于基于深度神经网络的语音端点检测算法,而且该算法能够显著减少语音端点检测算法的数据准备工作量与系统数据量。  相似文献   

9.
近年来的语音编码算法研究集中在参数编码以及混合编码方式,参数编码和混合编码是基于语音产生模型的编码方法,而线性预测分析技术则是这2种编码算法的基础。讨论LPC线性预测分析技术,主要分析了LPC 10算法的编解码过程,并且通过Matlab仿真,实现了一个简化的LPC 10声码器模型,通过对比重建语音和原始语音研究分析该算法的优缺点。  相似文献   

10.
胡国强  金学成 《电子技术》2009,36(12):52-54
本文提出了一种基于线性预测残差倒谱的多语音基音频率检测算法,该算法首先对混合语音信号进行线性预测分析,进而计算预测信号与原混合信号的残差,并对残差信号做倒谱变换,得到混合语音信号的线性预测残差倒谱;然后在该信号的残差倒谱中,结合图像处理的技术,利用语音信号基音倒频匹配法检测出多语音信号的基音频率;最后在基音标定的过程中,本文算法利用语音信号的连续特性,依据信号基音频率前后差距变化最小原则标记出各基音所属话者。实验结果表明,本文提出的算法在弱回声及无回声的情况下能快速有效地从单声道混合语音信号中检测出多语音基音信息。  相似文献   

11.
车滢霞  俞一彪 《电子学报》2016,44(9):2282-2288
提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.  相似文献   

12.
For any given mixed-language text, a multilingual synthesizer synthesizes speech that is intelligible to human listener. However, as speech data are usually collected from native speakers to avoid foreign accent, synthesized speech shows speaker switching at language switching points. To overcome this, the multilingual speech corpus can be converted to a polyglot speech corpus using cross-lingual voice conversion, and a polyglot synthesizer can be developed. Cross-lingual voice conversion is a technique to produce utterances in target speaker’s voice from source speaker’s utterance irrespective of the language and text spoken by the source and the target speakers. Conventional voice conversion technique based on GMM tokenization suffer from degradation in speech quality as the spectrum is oversmoothed due to statistical averaging. The current work focuses on alleviating the oversmoothing effect in GMM-based voice conversion technique, using (source) language-specific mixture weights in a multi-level GMM followed by selective pole focusing in the unvoiced speech segments. The continuity between the frames of the converted speech is ensured by performing fifth-order mean filtering in the cepstral domain. For the current work, cross-lingual voice conversion is performed for four regional Indian languages and a foreign language namely, Tamil, Telugu, Malayalam, Hindi, and Indian English. The performance of the system is evaluated subjectively using ABX listening test for speaker identity and using mean opinion score for quality. Experimental results demonstrate that the proposed method effectively improves the quality and intelligibility mitigating the oversmoothing effect in the voice-converted speech. A hidden Markov model-based polyglot text-to-speech system is also developed, using this converted speech corpus, to further make the system suitable for unrestricted vocabulary.  相似文献   

13.
彭柏  许刚 《电声技术》2007,31(1):39-43
在研究频谱搬移方法和分析语音共振峰性质及变化规律的基础上,提出了利用频谱搬移调整共振峰的算法,能有效控制共振峰轨迹合成声道模型。讨论了语音转换的实现流程,并将合成的声源模型应用于男、女声之间的转换,实验结果和分析表明,该方法可实现对共振峰的灵活控制,使语音转换具有更高的融合度。  相似文献   

14.
黄国捷  金慧  俞一彪 《信号处理》2018,34(10):1246-1251
提出一种增强变分自编码器进行非平行语料语音转换的新方法。源语音首先经过编码网络生成一个服从高斯分布的语音编码,解码网络将该语音编码重构为指定的目标语音,最后通过增强网络优化生成的目标语音。增强网络的一个输入对应一个输出的,这使得整体转换系统有较好的去噪能力。此外,本文还引入了循环训练方法以改善转换语音的目标倾向性。实验结果显示,与基准语音转换系统相比,本文提出的增强变分自编码器语音转换系统在跨性别语音转换上的客观评价指标谱失真上下降10.3%,在主观评价指标相似度与清晰度方面同样有所改善。这一结果表明,本文提出的方法能够使转换语音具有良好目标倾向性,同时有较好的语音转换质量。   相似文献   

15.
吴则诚  飞龙  张晖  王海波 《信号处理》2021,37(10):1825-1834
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。   相似文献   

16.
马振  张雄伟  杨吉斌 《信号处理》2013,29(4):513-519
本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。   相似文献   

17.
周光军  李昊 《信息技术》2008,32(2):45-47,51
研究多用户MIMO下行链路中最小和均方误差意义下线性预编码器/译码器的设计问题.针对该非线性、非凸性的优化问题,传统的联合优化算法性能有限且复杂度较高.提出一种新的设计方案.该方案首先利用信道正交化技术将MIMO下行信道分解成多个并行的等效单用户MIMO信道,然后通过解这些等效MIMO信道上的单用户均方误差最小化问题来获得和均方误差最小问题的近似解.仿真结果显示,该方案的性能要优于传统的联合优化算法.  相似文献   

18.
This letter proposes an efficient uplink scheduling algorithm for voice over Internet protocol (VoIP) services with adaptive multi-rate (AMR) speech codec in IEEE 802.16e/m systems. The proposed scheduling algorithm adopts the random access scheme during silent-period to reduce the waste of uplink bandwidth considering the characteristics of AMR speech codec. The numerical results show that the proposed algorithm can increase the maximum supportable number of voice users by 26% compared to the conventional extended real-time polling service (ertPS).  相似文献   

19.
对于给定阵元数目的 传统双平行均匀线阵,由于其阵列布局受到空间采样定理限制,阵列孔径不能有效扩展,二维波达方向(DOA)估计的精度和自由度难以得到有效提升.提出一种基于广义互质双平行阵列的二维DOA估计方法.采用两个互相平行的广义互质线阵进行虚拟扩展得到含有较多虚拟阵元的差分优化阵列,并利用该虚拟阵列的协方差信息和互协...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号