首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
倪崇嘉  刘文举  徐波 《计算机科学》2011,38(12):242-246
自动韵律间断检测和标注对语音理解和语音合成有十分重要的作用。提出了利用声学、词典和语法相关特征的互补模型方法检测汉语韵律间断。该方法具有下列优点:(1)摒弃了声学相关特征和词典、语法相关特征的独立性假设;(2)互补模型方法不仅在特征层上利用当前音节的上下文信息,而且在模型层次上利用了当前音节的上下文信息。在ASCCD语料库上验证了该方法能够获得90.34%的韵律间断的检测准确率,较基线系统有 6.09%的提高。  相似文献   

2.
为预测英语文语转换(Text-to-Speech,TIS)系统中韵律生成模块的韵律边界,通过在中间短语、语调短语和语句后分别插入不同长度的停顿,产生使合成语音具有与真人语音类似的韵律结构.通过采用基于语块的中间短语切分,以中间短语为基本单位,生成一个语调短语边界预测的学习语料库,然后采用转换式学习法进行标注学习,从而实现韵律边界的切分.在对真人语料库进行测试的实验中,标注正确率达到81.32%,通过在学习中增加语调短语音节数和标点符号的约束规则,可进一步提高标注正确率.  相似文献   

3.
汉语韵律短语的时长与音高研究   总被引:2,自引:1,他引:1  
语句和篇章的韵律结构和信息结构的分析及模型化是提高语音合成的自然度、降低自然语言识别错误率的关键。该文在带有韵律标注ASCCD语料库的基础上对韵律短语的时长和音高特性进行了研究,得到并验证了如下一些结论:(1)韵律短语边界对音节时长有明显的延长作用,不同声调对音节的时长延长作用不同,并且不同的重音级别对音节时长的延长作用也不同。(2)韵律短语边界处中断的时长在较小的韵律边界表现的更为明显。韵律短语的边界处发生了明显的音高重置现象,韵律短语的音高低线总是下降的,而音高高线只是在重音后下降,并且重音处的音域大而且音高高线的位置高。  相似文献   

4.
语音合成系统中,韵律短语的预测对合成语音的自然度有重要影响.为了突破主流的基于决策树预测方法的若干缺陷,提出了基于整句相似性计算的韵律短语预测模型.通过对1000个句子的测试,该方法在可接受的语料手工标注工作量的范围内,超过了传统决策树的方法.  相似文献   

5.
在英文语音合成系统中,韵律短语边界预测的精度对合成语音的自然度和可懂度有着至关重要的影响。基于决策树的预测方法是现阶段最为常用的韵律短语边界预测方法,但因决策树构建时受到数据平衡性制约,难以针对关键词进行建模,而且在基于决策树进行预测时采用了局部最优的搜索方式无法达到全局最优。所以,为了进一步提升韵律短语边界的预测效果,对基于决策树的预测方法进行了改进,引入韵律短语条件概率,使用Viterbi算法同时优化韵律短语边界概率和条件概率,并提出了基于关键词在韵律短语中的位置分布特性的决策树节点概率优化方法。实验表明,在基线系统上使用改进方法后,F-Score由68.7%提升到77.8%,而不可接受率从22.4%降低到15.2%。  相似文献   

6.
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。  相似文献   

7.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

8.
基于最大熵模型的韵律短语边界预测   总被引:7,自引:3,他引:7  
语音合成系统中,由于韵律短语边界预测的水平不高,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点,提出了基于最大熵模型的预测方法。为考察该方法的能力,在较大规模的数据集上,使用相同的属性集,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献,以及选择特征时的不同阈值对最大熵模型的影响。实验表明,使用相同的属性信息,最大熵方法比传统的决策树方法在F-Score上有5.5%的提高,加入了词面信息的最大熵模型则有9.4%的提高。最后指出,最大熵模型相当于一个带权重的规则系统,可以很好的解决规则冲突问题。  相似文献   

9.
韵律边界对言语表达的自然度和可理解度有着重要作用。韵律建模也是语音合成、语音理解中的重要方面。该文从相邻声调的相互作用角度出发,提出基于深度神经网络(DNN)及声调核声学特征的汉语韵律边界检测方法。该方法首先采用声调核部分的声学特征来计算边界检测相关参数。然后,利用深度神经网络进行建模。作为对比,实验中采用了以整个音节的声学特征为输入特征的基线系统。结果表明,只使用调核部分声学特征的系统优于使用整个音节的系统,韵律边界检测正确率相对提高了4%,这表明该文提出的汉语韵律边界检测方法的有效性。  相似文献   

10.
重音对提高语音合成系统的自然度、可懂度以及语音识别系统的正确率等方面扮演着非常重要的作用.该文基于大规模韵律标注的语料库,利用声学相关特征及词典语法相关特征对汉语重音进行检测.采用Boosting 集成分类回归树对当前音节的声学相关特征以及词典语法相关特征进行建模,Boosting集成分类回归树充分利用了当前音节的特性...  相似文献   

11.
With the advent of prosody annotation standards such as tones and break indices (ToBI), speech technologists and linguists alike have been interested in automatically detecting prosodic events in speech. This is because the prosodic tier provides an additional layer of information over the short-term segment-level features and lexical representation of an utterance. As the prosody of an utterance is closely tied to its syntactic and semantic content in addition to its lexical content, knowledge of the prosodic events within and across utterances can assist spoken language applications such as automatic speech recognition and translation. On the other hand, corpora annotated with prosodic events are useful for building natural-sounding speech synthesizers. In this paper, we build an automatic detector and classifier for prosodic events in American English, based on their acoustic, lexical, and syntactic correlates. Following previous work in this area, we focus on accent (prominence, or ldquostressrdquo) and prosodic phrase boundary detection at the syllable level. Our experiments achieved a performance rate of 86.75% agreement on the accent detection task, and 91.61% agreement on the phrase boundary detection task on the Boston University Radio News Corpus.  相似文献   

12.
汉语韵律词内部音节重音的强弱对总的F0曲线的特征有很大影响。本文参考生成F0曲线的数学优化模型,提出了对由孤立单音节调型曲线串接而成的汉语韵律词的F0曲线的连续性、平滑性、曲线形状、平均值进行整体优化的x2估计方法,实现了在重音作用下的F0曲线的优化。在谐波+噪声合成系统上实验研究了汉语三音节韵律词的64种不包含轻声的调型组合和10种结尾为轻声的调型组合的F0曲线的优化效果,展示优化过程中三个控制参数——平滑因子(smooth)、音节重音强度(stress)、音节F0形状失真度(Distor-tion)对F0曲线整体形状的控制效果和参数取值的有效范围。非正式的听觉实验表明合成语音的自然度有明显提高。  相似文献   

13.
基频是基于模型的语音合成系统中重要的一个因素,该文主要利用韵律信息仿真普通话基频曲线特征值,并分析音节基频各个特征值在韵律环境下的稳定性。该文将前一音节的终止基频值与韵律参数结合,通过数据挖掘技术寻找影响各个特征值的重要韵律参数,并用这个结果建立韵律模型,然后仿真基频曲线特征值,并得到了一个良好的结果。通过分析发现在连续语流中,体现频率特性的特征值中,基频均值和最小值的稳定性较强;体现时间特性的特征值中,音节时长的稳定性较强。  相似文献   

14.
In this paper, we describe a maximum entropy-based automatic prosody labeling framework that exploits both language and speech information. We apply the proposed framework to both prominence and phrase structure detection within the Tones and Break Indices (ToBI) annotation scheme. Our framework utilizes novel syntactic features in the form of supertags and a quantized acoustic-prosodic feature representation that is similar to linear parameterizations of the prosodic contour. The proposed model is trained discriminatively and is robust in the selection of appropriate features for the task of prosody detection. The proposed maximum entropy acoustic-syntactic model achieves pitch accent and boundary tone detection accuracies of 86.0% and 93.1% on the Boston University Radio News corpus, and, 79.8% and 90.3% on the Boston Directions corpus. The phrase structure detection through prosodic break index labeling provides accuracies of 84% and 87% on the two corpora, respectively. The reported results are significantly better than previously reported results and demonstrate the strength of maximum entropy model in jointly modeling simple lexical, syntactic, and acoustic features for automatic prosody labeling.  相似文献   

15.
Automatic prosodic break detection and annotation are important for both speech understanding and natural speech synthesis.In this paper,we discuss automatic prosodic break detection and feature analysis.The contributions of the paper are two aspects.One is that we use classifier combination method to detect Mandarin and English prosodic break using acoustic,lexical and syntactic evidence.Our proposed method achieves better performance on both the Mandarin prosodic annotation corpus - Annotated Speech Corpus of Chinese Discourse and the English prosodic annotation corpus - Boston University Radio News Corpus when compared with the baseline system and other researches’ experimental results.The other is the feature analysis for prosodic break detection.The functions of different features,such as duration,pitch,energy,and intensity,are analyzed and compared in Mandarin and English prosodic break detection.Based on the feature analysis,we also verify some linguistic conclusions.  相似文献   

16.
汉语韵律边界的声学实验研究   总被引:2,自引:4,他引:2  
本文以带有韵律标注的语料库ASCCD为基础,从语音信号分析的角度,研究了汉语普通话韵律间断模式在语音的时长、基频和音强等三个方面的表现特征,并在大量统计分析的基础上建立了识别分类的决策树模型,实验证明,这些特征能较好地描述朗读话语的韵律间断模式。  相似文献   

17.
A precise identification of prosodic phenomena and the construction of tools able to properly manage such phenomena are essential steps to disambiguate the meaning of certain utterances. In particular they are useful for a wide variety of tasks: automatic recognition of spontaneous speech, automatic enhancement of speech-generation systems, solving ambiguities in natural language interpretation, the construction of large annotated language resources, such as prosodically tagged speech corpora, and teaching languages to foreign students using Computer Aided Language Learning (CALL) systems. This paper presents a study on the automatic detection of prosodic prominence in continuous speech, with particular reference to American English, but with good prospects of application to other languages. Prosodic prominence involves two different prosodic features: pitch accent and stress accent. Pitch accent is acoustically connected with fundamental frequency (F0) movements and overall syllable energy, whereas stress exhibits a strong correlation with syllable nuclei duration and mid-to-high-frequency emphasis. This paper shows that a careful measurement of these acoustic parameters, as well as the identification of their connection to prosodic parameters, makes it possible to build an automatic system capable of identifying prominent syllables in utterances with performance comparable with the inter-human agreement reported in the literature. Two different prominence detectors were studied and developed: the first uses a training corpus to set up thresholds properly, while the second uses a pure unsupervised method. In both cases, it is worth stressing that only acoustic parameters derived directly from speech waveforms are exploited.  相似文献   

18.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

19.
该研究基于大规模语音数据库,通过建立普通话连续语流中的声韵母时长预测模型,考察声韵母时长的影响因素,探讨普通话声韵母在连续语流中的时长变化类型与话语韵律结构之间的关系。初步研究结果表明 话语的韵律结构对声母时长的影响较小,而对韵母时长的影响较为显著,这种影响主要体现为 韵律单元末音节的韵母时长是否发生显著延长与话语的韵律结构密切相关,韵律大短语和语调短语末尾的音节通常会发生显著的韵母延长,韵律词内以及韵律词末尾的音节通常不会发生韵母延长;韵律小短语末尾的音节在韵母时长方面的表现比较混乱,规律性不明显,可能需要进一步做分化处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号