首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 63 毫秒
1.
本文介绍了一种采用串并联结构的共振峰语音综合系统。该系统比一些采用专用硬件的语音综合系统具有调整容易、组态灵活、稳定性高等优点。另外,共振峰方法还可构成一种经济的语音信息存贮和传输型式,减小存贮量和传输带宽。  相似文献   

2.
针对线性预测方法提取语音信号共振峰频率的不足,提出了一种基于共振峰增强的共振峰频率估计算法,从而在不增加运算量的情况下使共振峰频率的提取更加准确.实验结果表明,该算法在5kHz内提取前五个共振峰的性能都很好.  相似文献   

3.
语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型,再使用小型情感语料库训练,合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律,最后借助该规律,对Tacotron合成的相应情感语音的基频、时长和能量进行修正,使情感表达更为精确。客观情感识别实验和主观评价的结果表明,该方法能够合成较为自然且表现力更加丰富的情感语音。  相似文献   

4.
耳语音是噪声源激励,与正常音相比,其共振峰位置发生了偏移,带宽增宽。故采用传统的线性预测法提取耳语音共振峰时存在虚假峰问题。通过分析功率谱,提出了一种改进算法。根据极点功率不变的原则,利用极点交互因子修正共振峰的带宽,从而准确地提取出耳语音的共振峰。对汉语普通话单元音音素仿真实验的结果证明了该算法的有效性。  相似文献   

5.
语音同一性鉴定中共振峰的特征比对是认定同一的重要方法。司法鉴定中的语音检材大多来自于录音笔等电子设备,而网络语音的出现相对于通常的语音同一性鉴定是一种挑战。即时通信软件在传输网络语音的过程中为了保持网络传输的低带宽占用,对语音进行高比例的压缩,因此即时通信软件产生的网络语音的共振峰特征相对于原始语音会有变化。选取当前互联网社交领域常用的5款即时通信软件,通过实验分析出即时通信软件产生的网络语音与原始语音在共振峰特征上的差异。研究结果表明,不同即时通信软件在不同元音的共振峰特征上会呈现出变化差异,通过总结变化差异可以提高即时通信软件的网络语音同一性鉴定的准确率。  相似文献   

6.
语音端点检测是语音信号预处理的重要一步,其准确度对语音合成和语音识别系统的性能起着决定性的作用.根据共振峰谐波能量特征,提出一种采用图像处理技术处理语谱图的语音端点检测算法.首先去除了语谱图中的周期性干扰,然后进行滤噪与分割,最后利用高斯一阶差分滤波器提取共振峰和获取语音端点.实验结果表明,在不同信噪比的白噪声和多种突发性噪声环境下,与其他算法相比,该算法效果更好.  相似文献   

7.
针对非特定人语音识别中的声道长度归一化问题,首先研究一种能够去牛基音激励的,基于自相关估计的共振峰(Formart) 频谱恢复方法,说明了不同说话人发同一元音时的频谱互为尺度化的关系,以及它们与同一说话人发不同元音时频谱的差别,然后结合具有尺度不变性的Mellin变换,提出了一种适用于非特定人的语音特征提取方法,在实难中,对从非特定人收集的20个汉语元音,分别提取了其FFT倒谱,Mel倒谱,FFT-Mellin倒谱及本文Formant-Mellin倒谱,并用一种很直观的F-roato分辨率准则进行了性能评价,结果表明,无论是对纯净的,还是对带附加白噪声的发音样本,本文由共振峰恢复和Mellin变换相结合得到的语音特征都具有较高的分辨率。  相似文献   

8.
韵律规则对于语音识别和语音合成具有重要意义,韵律特征参数的描述正确与否直接影响合成系统的输出.为了提高藏语语音合成中语音的自然度,本文研究了基于数据挖掘中的关联规则来发现韵律参数之间的相互关系,并基于关联规则算法获得藏语韵律参数中基频参数的变化规则,这些规则可以为藏语语音合成系统的选音提供帮助.  相似文献   

9.
基于分段线性预测算法估计语音的共振峰频率,运用多通道的滤波器组对语音的频段进行划分,然后选择合适的逆滤波器逼近不同频段的短时频谱,最后依据该逆滤波器估计共振峰频率。实验结果表明,与传统方法相比,该方法提高了语音共振峰频率估计时的分辨率与准确性,受噪声的影响较小。  相似文献   

10.
首先,给出结合韵律信息的系统框架。然后,针对汉语的特点,解决了韵律相关的语音识别系统中建模单元选择、模型训练等问题,并在多空间概率分布隐马尔可夫模型(multiple-space distribution hidden Markov model, MSD-HMM)框架下构建了韵律相关的语音识别系统。最后,通过语音识别的实验验证了方法的有效性。在“863”测试集上,该方法能够达到76.18%的带调音节识别正确率。  相似文献   

11.
基于韵律特征参数的情感语音合成算法研究   总被引:1,自引:0,他引:1  
为了合成更为自然的情感语音,提出了基于语音信号声学韵律参数及时域基音同步叠加算法的情感语音合成系统.实验通过对情感语音数据库中生气、无聊、高兴和悲伤4种情感的韵律参数分析,建立4种情感模板,采用波形拼接语音合成技术,运用时域基音同步叠加算法合成含有目标感情色彩的语音信号.实验结果表明,运用波形拼接算法,调节自然状态下语音信号的韵律特征参数,可合成较理想的情感语音.合成的目标情感语音具有明显的感情色彩,其主观情感类别判别正确率较高.  相似文献   

12.
A general method which combines formant synthesis by rule and time-domain concatenation is proposed. This method utilizes the advantages of both techniques by maintaining naturalness while minimizing difficulties such as prosodic modification and spectral discontinuities at the point of concatenation. An integrated sampled natural glottal source (Matsui et al., 1991) and sampled voiceless consonants were incorporated into a real-time text-to-speech formant synthesizer. In special cases, voicing amplitude envelopes and formant transitions dirived from natural speech were also utilized. Several listening tests were performed to evaluate these methods. We obtained a significant overall improvement in intelligibility over our previous formant synthesizer. Such improvements in intelligibility were previously obtained with a Japanese text-to-speech system using a related hybrid system (Kamai and Matsui, 1993), indicating the applicability of this method for multi-lingual synthesis. The results of subjective analyses showed that these methods can alo improve naturalness and listenability factors.  相似文献   

13.
基于语音识别技术的英语口语教学系统   总被引:1,自引:0,他引:1  
许多计算机辅助英语学习的应用欠缺口语学习的评估和反馈.描述了一个采用语音识别技术的英语口语学习系统.除了通常的发音评分外,还提供基于音素关联和音素识别的错误检测功能.结合纠正知识库的改进建议和韵律修正语音,可以及时地给学习者以帮助.实验结果表明,能够纠正有一定基础学习者的多数非故意错误.  相似文献   

14.
提出一种基于时域基音同步叠加TD-PSOLA算法的情感语音合成系统。根据情感语音库分析总结情感规则,在此基础上利用TD-PSOLA算法对中性语音的韵律参数进行改变,并提出一种能够对基频曲线尾部形状改变的方法,使句子表达出丰富的情感。实验表明,合成出的语音具有明显的情感色彩,证明了该系统能以简单明了的方式实现情感语音的合成,有助于提高人脸语音动画表达的丰富性和生动性。  相似文献   

15.
This paper presents a study on the importance of short-term speech parameterizations for expressive statistical parametric synthesis. Assuming a source-filter model of speech production, the analysis is conducted over spectral parameters, here defined as features which represent a minimum-phase synthesis filter, and some excitation parameters, which are features used to construct a signal that is fed to the minimum-phase synthesis filter to generate speech. In the first part, different spectral and excitation parameters that are applicable to statistical parametric synthesis are tested to determine which ones are the most emotion dependent. The analysis is performed through two methods proposed to measure the relative emotion dependency of each feature: one based on K-means clustering, and another based on Gaussian mixture modeling for emotion identification. Two commonly used forms of parameters for the short-term speech spectral envelope, the Mel cepstrum and the Mel line spectrum pairs are utilized. As excitation parameters, the anti-causal cepstrum, the time-smoothed group delay, and band-aperiodicity coefficients are considered. According to the analysis, the line spectral pairs are the most emotion dependent parameters. Among the excitation features, the band-aperiodicity coefficients present the highest correlation with the speaker's emotion. The most emotion dependent parameters according to this analysis were selected to train an expressive statistical parametric synthesizer using a speaker and language factorization framework. Subjective test results indicate that the considered spectral parameters have a bigger impact on the synthesized speech emotion when compared with the excitation ones.  相似文献   

16.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。  相似文献   

17.
计算安全的隐写理论很早就被提出,但一直不能用于主流的以多媒体数据为载体的隐写术。原因在于计算安全隐写的前提是可以获得载体的精确分布或可以按照载体分布精确采样,而自然采集的图像、音/视频无法满足这个前提条件。近几年,随着深度学习的发展,多媒体生成技术逐渐成熟且在互联网上的应用越来越普遍,生成媒体成为合理的隐写载体,隐写者可以用正常的生成媒体掩盖秘密通信,即在媒体生成过程中隐写信息,并与正常的生成媒体不可区分。一些生成模型学到的分布是可知或可控的,这将为计算安全隐写推向实用提供契机。以当前广泛应用的合成语音模型为例,设计并实现了计算安全的对称密钥隐写算法,即在音频生成过程中,根据样本点的条件概率,按算术编码的译码过程将消息解压缩到合成音频中,消息接收方拥有相同的生成模型,通过复现音频合成过程完成消息提取。在该算法的基础上进一步设计了公钥隐写算法,为实现包括隐蔽密钥交换在内的全流程隐蔽通信提供了算法支撑,在保证隐写内容安全的同时,还可以实现隐写行为安全。理论分析显示,所提隐写算法的安全性由嵌入消息的随机性决定,隐写分析实验进一步验证了当前技术下攻击者无法区分合成的载体音频与载密音频。  相似文献   

18.
现代越南语是一种拼音化文字,采用“声、韵、调”标记其音节。采用基于HMM的可训练语音合成方法实现越南语语音合成。针对越南语的特点收集语料、录音、标注、确定音素列表、设计上下文属性集和问题集。在HTS平台下构建越南语的STRAIGHT语音合成器。对合成语音进行主观评测。初步评测结果表明,可懂度基本接近100%,自然度还处在“可以接受”和“比较自然”之间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号