首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
在英文语音合成系统中,韵律短语边界预测的精度对合成语音的自然度和可懂度有着至关重要的影响。基于决策树的预测方法是现阶段最为常用的韵律短语边界预测方法,但因决策树构建时受到数据平衡性制约,难以针对关键词进行建模,而且在基于决策树进行预测时采用了局部最优的搜索方式无法达到全局最优。所以,为了进一步提升韵律短语边界的预测效果,对基于决策树的预测方法进行了改进,引入韵律短语条件概率,使用Viterbi算法同时优化韵律短语边界概率和条件概率,并提出了基于关键词在韵律短语中的位置分布特性的决策树节点概率优化方法。实验表明,在基线系统上使用改进方法后,F-Score由68.7%提升到77.8%,而不可接受率从22.4%降低到15.2%。  相似文献   

2.
基于韵律特征和语法信息的韵律边界检测模型   总被引:2,自引:2,他引:2  
韵律短语边界的自动检测,对语音合成中语料库的韵律标注以及语音识别中韵律短语的自动划分都有重要意义。本文通过对影响韵律短语边界的声学、韵律等参量的分析,得到和韵律短语边界关联性较大的一组声学特征参数、韵律环境参数和语法信息;同时引入语音合成中的韵律预测思想,在假定所有音节边界均为非韵律短语边界时,预测每个音节的基频。最后使用决策树模型,将音节边界处的韵律环境信息、语法信息以及预测结果作为决策树的输入,利用决策树综合判定当前音节边界是否为韵律短语的边界。实验表明,这种方法对于基于确定性文本(text-dependent)的语音韵律短语边界的检测,具有较好效果,同时可以显著提高语音合成中语料库的标注效率和标注结果的一致性。  相似文献   

3.
吴晓慧  柴佩琪 《计算机工程》2003,29(2):151-152,160
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分,在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素g这种词性就过于模糊,导致韵律短语切分点预测得不合理,该文提出了一种修改词类标注集,去掉语素g这种词性的方法,该方法在进行词性标注时,对实语素恰当地柰注出在句中的词性,以便提高韵律短语的正确切分,应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%,并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到75.79%。  相似文献   

4.
基于最大熵模型的韵律短语边界预测   总被引:7,自引:3,他引:7  
语音合成系统中,由于韵律短语边界预测的水平不高,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点,提出了基于最大熵模型的预测方法。为考察该方法的能力,在较大规模的数据集上,使用相同的属性集,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献,以及选择特征时的不同阈值对最大熵模型的影响。实验表明,使用相同的属性信息,最大熵方法比传统的决策树方法在F-Score上有5.5%的提高,加入了词面信息的最大熵模型则有9.4%的提高。最后指出,最大熵模型相当于一个带权重的规则系统,可以很好的解决规则冲突问题。  相似文献   

5.
针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将依存句法单特征与融合特征进行韵律层级预测实验对比,选取最优的依存特征组合与浅层语法特征相结合,利用决策树C4.5算法实现韵律结构层级的预测。经过大量的语料训练和测试结果表明,依存信息融合特征相比依存句法单特征整体韵律层级的预测准确率均有所提升,相对于浅层语法特征,韵律词和韵律短语的预测准确率分别提高了5.8%和15.4%。  相似文献   

6.
中文语音合成系统中的一种两层韵律结构生成体系   总被引:1,自引:0,他引:1  
董远  周涛  董乘宇  王海拉 《自动化学报》2010,36(11):1569-1574
韵律结构生成是改进一个语音合成系统中的合成语音的完整度和自然度的重要组成部分. 韵律词和韵律短语的自动切分是中文层级韵律结构的两个重要的基本层面, 本文调研了这个基本问题, 并提出了一种两层韵律结构生成体系. 为此, 我们建立了条件随机场模型为韵律词和韵律短语的预测选取不同的前端特征. 除此之外, 我们还引入了基于转换的错误驱动学习模块来修正后端的初始预测. 实验结果显示, 这种结合条件随机场和错误驱动学习的方法使得韵律词和韵律短语的自动分割的F-score值达到了94.66%.  相似文献   

7.
韵律边界的正确预测是连续语音合成系统中首要解决的关键问题。针对维吾尔语分层韵律结构,通过基于条件随机场(CRF)的分层自底向上方法预测了维吾尔语的韵律词和韵律短语边界,并将维吾尔语形态特征作为韵律边界预测模型的重要特征。根据不同韵律边界层次的特点,对分层韵律边界预测方法进行了改进,针对分层方法的不同层次进行独立特征模板筛选,从而进一步提高韵律边界预测性能。通过对不同的特征模板和不同韵律边界预测模型进行反复实验,得到了最好的预测性能。实验结果表明,该方法明显提高了韵律边界预测结果。  相似文献   

8.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

9.
提出了一种的、基于扩张矩阵理论的归纳学习算法:分组覆盖算法,并钭其应用于汉语文语转换系统中的韵律短语分析问题。算法以扩张矩阵为基础,在反例样本集背景下,将正侧样本集划分为若干个一致的组,每一组对应于一个一致的规则,它覆盖了这组正侧而且不覆盖任何的反例;建造了一个用于韵律短语分析的语料库,并提出了一组与韵律有关的特征;将数据分为训练集和测试集对算法进行了验证。实验结果表明,新算法在正确率、规则个数和可懂性等各方面均优于传统的决策树方法,并接近于手工制定的规则。  相似文献   

10.
基于边界点词性特征统计的韵律短语切分   总被引:10,自引:6,他引:4  
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则,而且很难保证它在处理大规模真实文本时的强壮性,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试, 词性标注的正确率在95%左右,韵律短语切分的召回率在60%左右,正确率达到了80%。  相似文献   

11.
This paper describes a new Korean Text-to-Speech (TTS) system based on a large speech corpus. Conventional concatenative TTS systems still produce machine-like synthetic speech. The poor naturalness is caused by excessive prosodic modification using a small speech database. To cope with this problem, we utilized a dynamic unit selection method based on a large speech database without prosodic modification. The proposed TTS system adopts triphones as synthesis units. We designed a new sentence set maximizing phonetic or prosodic coverage of Korean triphones. All the utterances were segmented automatically into phonemes using a speech recognizer. With the segmented phonemes, we achieved a synthesis unit cost of zero if two synthesis units were placed consecutively in an utterance. This reduces the number of concatenating points that may occur due to concatenating mismatches. In this paper, we present data concerning the realization of major prosodic variations through a consideration of prosodic phrase break strength. The phrase break was divided into four kinds of strength based on pause length. Using phrase break strength, triphones were further classified to reflect major prosodic variations. To predict phrase break strength on texts, we adopted an HMM-like Part-of-Speech (POS) sequence model. The performance of the model showed 73.5% accuracy for 4-level break strength prediction. For unit selection, a Viterbi beam search was performed to find the most appropriate triphone sequence, which has the minimum continuation cost of prosody and spectrum at concatenating boundaries. From the informal listening test, we found that the proposed Korean corpus-based TTS system showed better naturalness than the conventional demisyllable-based one.  相似文献   

12.
本文对富士通中文语音合成系统尤其是其中的韵律生成部分进行了描述。该系统是一个以音节为基本合成单元,在韵律参数生成结果即音长和基频预测结果的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系统。从提高合成语音韵律的角度出发,本文围绕音长预测和基频预测部分对该系统进行了详细的描述。最后,给出了韵律评测和系统评测的结果。  相似文献   

13.
为预测英语文语转换(Text-to-Speech,TIS)系统中韵律生成模块的韵律边界,通过在中间短语、语调短语和语句后分别插入不同长度的停顿,产生使合成语音具有与真人语音类似的韵律结构.通过采用基于语块的中间短语切分,以中间短语为基本单位,生成一个语调短语边界预测的学习语料库,然后采用转换式学习法进行标注学习,从而实现韵律边界的切分.在对真人语料库进行测试的实验中,标注正确率达到81.32%,通过在学习中增加语调短语音节数和标点符号的约束规则,可进一步提高标注正确率.  相似文献   

14.
Does prosody help word recognition? This paper proposes a novel probabilistic framework in which word and phoneme are dependent on prosody in a way that reduces word error rates (WER) relative to a prosody-independent recognizer with comparable parameter count. In the proposed prosody-dependent speech recognizer, word and phoneme models are conditioned on two important prosodic variables: the intonational phrase boundary and the pitch accent. An information-theoretic analysis is provided to show that prosody dependent acoustic and language modeling can increase the mutual information between the true word hypothesis and the acoustic observation by exciting the interaction between prosody dependent acoustic model and prosody dependent language model. Empirically, results indicate that the influence of these prosodic variables on allophonic models are mainly restricted to a small subset of distributions: the duration PDFs (modeled using an explicit duration hidden Markov model or EDHMM) and the acoustic-prosodic observation PDFs (normalized pitch frequency). Influence of prosody on cepstral features is limited to a subset of phonemes: for example, vowels may be influenced by both accent and phrase position, but phrase-initial and phrase-final consonants are independent of accent. Leveraging these results, effective prosody dependent allophonic models are built with minimal increase in parameter count. These prosody dependent speech recognizers are able to reduce word error rates by up to 11% relative to prosody independent recognizers with comparable parameter count, in experiments based on the prosodically-transcribed Boston Radio News corpus.  相似文献   

15.
This paper presents the data-driven prediction of word level prosody breaks modelling for the Slovenian language. Automatic learning techniques depend on the construction of a large corpus labeled appropriately. This labeling can be done either automatically, or by hand. While automatic labeling can be less accurate than hand labeling, the latter is very time consuming and, in some cases, inconsistent. Therefore, a new interactive tool for word level prosody labeling (major/minor breaks) is presented together with a new semi-automatic approach for determining prosody breaks. This interactive tool combines the advantages of hand labeling and automatic labeling by achieving a high consistency in labeling and reducing the time needed for hand labeling. The labeled Slovenian corpus has been used to train our phrase break prediction module, implementing a neural network (NN) structure. Experiments for the data-driven prediction of major = minor and major/minor phrase breaks were performed. The prediction accuracy achieved marks state-of-the-art word level prosody breaks prediction for the Slovenian language and is comparable to the prediction accuracy of other approaches in which more complex NN structures (Müller et al., 2000) or other prediction methods (Black and Tailor, 1997) were applied, and a much larger corpus was used for training. The overall prediction accuracy achieved is 94% for major = minor breaks and over 98/92% for major/minor phrase breaks, respectively.  相似文献   

16.
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。  相似文献   

17.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号