首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
介绍了一种基于决策树和条件概率的基频预测模型(FO Prediction with Integrated Decision Tree and Condi-tional Probability Model,IDBCPM).基频是一种重要的韵律特征参数,高精度的基频预测模型是高质量合成语音系统的必要保证.基频模型是根据从文本分析得到的信息预测相应于当前文本的合理基频曲线.IDBCPM一定程度上避免了其它基频模型预测时,在相邻音节处的预测结果不匹配问题.这种不匹配产生于预测当前音节基频时不能有效考虑相邻音节的预测结果.IDBCPM充分利用决策树的输出信息,包含决策树的输出类别和类别相应的概率,另外IDBCPM可以有效应用从训练数据中得到的先验条件概率,消除决策树输出的不合理结果.实验证明这种方法的预测精度比单纯决策树预测精度有明显提高.  相似文献   

2.
汉语语音合成中基频曲线(F0 曲线)预测是决定合成语音声调自然度的关键因素,为了使生成的基频曲线过渡自然,提出应用连接段基频曲线模式连接各音节的方法.连接段和音节基频曲线模式使用聚类、分析修正的方法获得,相互问有重叠性,应用时根据参数来确定选取区域,进行连接.通过实验过程中分析总结得到的规则确定基频曲线模式参数.实际应用于 PSOLA 语音合成系统后,经实验证明合成语音声调自然度明显提升.  相似文献   

3.
基频是基于模型的语音合成系统中重要的一个因素,该文主要利用韵律信息仿真普通话基频曲线特征值,并分析音节基频各个特征值在韵律环境下的稳定性。该文将前一音节的终止基频值与韵律参数结合,通过数据挖掘技术寻找影响各个特征值的重要韵律参数,并用这个结果建立韵律模型,然后仿真基频曲线特征值,并得到了一个良好的结果。通过分析发现在连续语流中,体现频率特性的特征值中,基频均值和最小值的稳定性较强;体现时间特性的特征值中,音节时长的稳定性较强。  相似文献   

4.
本文对富士通中文语音合成系统尤其是其中的韵律生成部分进行了描述。该系统是一个以音节为基本合成单元,在韵律参数生成结果即音长和基频预测结果的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系统。从提高合成语音韵律的角度出发,本文围绕音长预测和基频预测部分对该系统进行了详细的描述。最后,给出了韵律评测和系统评测的结果。  相似文献   

5.
基于韵律特征和语法信息的韵律边界检测模型   总被引:2,自引:2,他引:2  
韵律短语边界的自动检测,对语音合成中语料库的韵律标注以及语音识别中韵律短语的自动划分都有重要意义。本文通过对影响韵律短语边界的声学、韵律等参量的分析,得到和韵律短语边界关联性较大的一组声学特征参数、韵律环境参数和语法信息;同时引入语音合成中的韵律预测思想,在假定所有音节边界均为非韵律短语边界时,预测每个音节的基频。最后使用决策树模型,将音节边界处的韵律环境信息、语法信息以及预测结果作为决策树的输入,利用决策树综合判定当前音节边界是否为韵律短语的边界。实验表明,这种方法对于基于确定性文本(text-dependent)的语音韵律短语边界的检测,具有较好效果,同时可以显著提高语音合成中语料库的标注效率和标注结果的一致性。  相似文献   

6.
基频是发浊音时声带振动频率,通常用F0表示。在一个音节或连续的语音段中,F0是随时间变化的,这种变化的轨迹形成了基频曲线。基频曲线的走势可以反映出语句的重音、语调等韵律信息,所以对基频曲线的描述和研究就显得尤为重要。该文首先提出了一种基频曲线描述方法,即导数域编码方法,同时探讨了该编码方法在语音发音质量评价中对韵律的作用。实验结果表明基于该描述方法能够提高英语发音语调质量评价的性能,主观和客观评价的相关性由原来的基于基音极值差的0.38提高到0.49。  相似文献   

7.
该文介绍了如何利用三音子模型和基频信息来提高汉语连续数字串的识别性能。三音子模型考虑了前后语音协同发音的影响,将上下文考虑到模型中去,可以更好地描述连续语音;各个音节的基频是随时间而变化的,其不同轨迹构成了声调,利用基频信息进一步提高了对汉语连续数字串的识别率。  相似文献   

8.
声调是汉语的重要特点之一。汉语的声调能够区分同音节词的词义,声母和韵母均相同的字因声调不同而分别表达不同的意义。本文介绍用LPC 格型法提取声调。根据第一反射系数的符号及前后向预测误差值来区分清音和浊音。利用预测误差信号确定浊音部分的基频周期。汉语四声的基频具有一定的变化规律。因此,根据基频变化规律,可以确认字义。  相似文献   

9.
方言转换系统实现了普通话到济南话、沈阳话和西安话的实时语音转换.北方方言之间的差异主要体现在声调上,声调是属于音节的,因此声调转换模式转换是以音节为单位实施的.主要研究了方言转换系统中关键技术:连续语流音节切分算法.提出了一种基于自动机的逐级音节切分算法,分为语段切分、音节切分自动机和切分点自动校正三部分.该算法在误差48ms时,正确率达到72.55%,并成功支持了方言转换中的基频模式转换.  相似文献   

10.
提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。选取了11种典型情感,设计了文本语料,录制了语音语料,利用心理学的方法标注了语音语料的PAD值,利用五度字调模型对情感语音音节的基频曲线建模。在此基础上,利用广义回归神经网络(Generalized Regression Neural Network,GRNN)构建了一个情感语音韵律转换模型,根据情感的PAD值和语句的语境参数预测情感语音的韵律特征,并采用STRAIGHT算法实现了情感语音的转换。主观评测结果表明,提出的方法转换得到的11种情感语音,其平均EMOS(Emotional Mean Opinion Score)得分为3.6,能够表现出相应的情感。  相似文献   

11.
We propose a mandarin Chinese singing voice synthesis system, in which hidden Markov model (HMM)-based speech synthesis technique is used. A mandarin Chinese singing voice corpus is recorded and musical contextual features are well designed for training. F0 and spectrum of singing voice are simultaneously modeled with context-dependent HMMs. There is a new problem, F0 of singing voice is always sparse because of large amount of context, i.e., tempo and pitch of note, key, time signature and etc. So the features hardly ever appeared in the training data cannot be well obtained. To address this problem, difference between F0 of singing voice and that of musical score (DF0) is modeled by a single Viterbi training. To overcome the over-smoothing of the generated F0 contour, syllable level F0 model based on discrete cosine transforms (DCT) is applied, F0 contour is generated by integrating two-level statistical models. The experimental results demonstrate that the proposed system outperforms the baseline system in both objective and subjective evaluations. The proposed system can generate a more natural F0 contour. Furthermore, the syllable level F0 model can make singing voice more expressive.   相似文献   

12.
汉语朗读话语重音自动分类研究   总被引:1,自引:2,他引:1  
汉语的重音由于受到声调、语调以及韵律单元层级的干扰和制约,对于重音的自动感知一直是比较困难的问题。针对标准的朗读普通话语,本文在广义韵律结构的框架下研究了重音的声学表现,设计并实现了重音的自动感知模型。本文提出的基于分类树结构的区分度模型能有效地结合韵律单元结构对重音的制约。研究结果表明,音高高线、调域、音长是表达重音最重要线索,利用这些线索能有效地实现对重音的自动感知。我们的模型能一般能达到80 %左右的重音检出水平。  相似文献   

13.
通过严格控制的语音实验,系统研究了维吾尔语焦点和疑问语气对语调的调节作用。结果发现维吾尔语疑问句中焦点对音高和时长都有调节作用:1)焦点词音高上升、音域扩大,焦点后音高仍保持高,但焦点前的音高基本不变; 2)疑问语调的重要特征是句末音高出现大幅度上扬,另外疑问句中焦点词后的音高高于其在陈述句条件下的表现; 3)焦点成分时长延长,而焦点前后成分的时长变化不明显; 4)与陈述句相比,疑问句的总时长要长于陈述句的,且主要表现在句末成分的时长上。总之,维吾尔语和汉语、英语一样支持平行编码目标逼近(PENTA)语调模型,但是三种语言在疑问句中焦点后的语调变化方式上并不相同。  相似文献   

14.
Emphasis and question are two factors that have significant effects on F/sub 0/ contours for various languages, among which tone languages require more careful study because their F/sub 0/ contours show complex interaction between lexical tones and sentence intonation. This paper employs the command-response model for the process of F/sub 0/ contour generation to investigate the effects of these two factors for Cantonese, a typical tone language with nine tones. Analysis shows that the major effect of emphasis is on phrase commands, whereas the polarity and the amplitude of the tone commands in the emphasized part are hardly affected so that the inherent tone command patterns are maintained. In the intonation question, the inherent tone command in the later part of the sentence-final syllable is always substituted by a positive tone command. The particle question, on the other hand, maintains the inherent tone command for the question particle. In both types of questions, a sentence-final phrase command is added or enhanced, and a particular ending tone command is attached, the amplitude of which can indicate the degree of inquisitive intention. By comparison, the effect of emphasis starts from the target part for emphasis but is not confined to it, whereas the effect of question is localized in the sentence-final part and especially concentrated within the ending syllable. Nevertheless, both of them can be represented in the framework of the command-response model, by which F/sub 0/ contours for expressive speech can be generated efficiently.  相似文献   

15.
汉语韵律边界的声学实验研究   总被引:2,自引:4,他引:2  
本文以带有韵律标注的语料库ASCCD为基础,从语音信号分析的角度,研究了汉语普通话韵律间断模式在语音的时长、基频和音强等三个方面的表现特征,并在大量统计分析的基础上建立了识别分类的决策树模型,实验证明,这些特征能较好地描述朗读话语的韵律间断模式。  相似文献   

16.
This paper investigates speech prosody for automatic story segmentation in Mandarin broadcast news. Prosodic cues effectively used in English story segmentation deserve a re-investigation since the lexical tones of Mandarin may complicate the expressions of pitch declination and reset. Our data-oriented study shows that story boundaries cannot be clearly discriminated from utterance boundaries by speaker normalized pitch features due to their large variations across different Mandarin syllable tones. We thus propose to use speaker- and tone-normalized pitch features that can provide clear separations between utterance and story boundaries. Our study also shows that speaker-normalized pause duration is quite effective to separate between story and utterance boundaries, while speaker-normalized speech energy and syllable duration are not effective. Experiments using decision trees for story boundary detection reinforce the difference between English and Chinese, i.e., speaker- and tone-normalized pitch features should be favorably adopted in Mandarin story segmentation. We show that the combination of different prosodic cues can achieve a very high F-measure of 93.04% due to the complementarity between pause, pitch and energy. Analysis of the decision tree uncovered five major heuristics that show how speakers jointly utilize pause duration and pitch to separate speech into stories.  相似文献   

17.
维吾尔语音节语音识别与识别基元的研究   总被引:1,自引:0,他引:1  
王昆仑 《计算机科学》2003,30(7):182-184
1 引言现代维吾尔语(以下简称维语)是维吾尔族人民的主要交际工具,是我国新疆维吾尔自治区的法定工作用语之一,也是新疆其它少数民族共同的交际用语之一。维语属阿尔泰语系,突厥语族。维语语音有元音8个、辅音24个。由辅音和元音构成维语语音音节,每个音节必须且只能有一个元音,单元音可构成音节。维语句子由词构成。句子中有意群重音和句重音。部分音节在语流中产生语流音变现象,常见的有同化、弱化、脱落以及元音和谐等现象。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号