首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 151 毫秒
1.
吴晓慧  柴佩琪 《计算机工程》2003,29(2):151-152,160
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分,在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素g这种词性就过于模糊,导致韵律短语切分点预测得不合理,该文提出了一种修改词类标注集,去掉语素g这种词性的方法,该方法在进行词性标注时,对实语素恰当地柰注出在句中的词性,以便提高韵律短语的正确切分,应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%,并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到75.79%。  相似文献   

2.
为预测英语文语转换(Text-to-Speech,TIS)系统中韵律生成模块的韵律边界,通过在中间短语、语调短语和语句后分别插入不同长度的停顿,产生使合成语音具有与真人语音类似的韵律结构.通过采用基于语块的中间短语切分,以中间短语为基本单位,生成一个语调短语边界预测的学习语料库,然后采用转换式学习法进行标注学习,从而实现韵律边界的切分.在对真人语料库进行测试的实验中,标注正确率达到81.32%,通过在学习中增加语调短语音节数和标点符号的约束规则,可进一步提高标注正确率.  相似文献   

3.
汉语语句中短语间停顿的自动预测方法   总被引:2,自引:2,他引:2  
在文语转换(TTS)系统中,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先,文本进行分词,并转换为一列由词性标记所组成的序列;然后使用马尔可夫模型,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试,短语间停顿自动预测的召回率和连接类型正确率分别达到了68.2%和85.1% ,取得了比较满意的结果。  相似文献   

4.
汉语短语的自动划分和标注   总被引:13,自引:2,他引:13  
考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。  相似文献   

5.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

6.
一个汉语短语自动界定模型   总被引:8,自引:1,他引:7  
周强 《软件学报》1996,7(A00):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到的调整规则界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置,从而为时一步的汉语短语自动划分和标注处理打下了良好的基础,对1000多句句子的实验结果表明,模型的界定正确率达到了96.33%(封闭测试)、94.55  相似文献   

7.
藏语的“音节”在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明: 即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。  相似文献   

8.
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。  相似文献   

9.
以语音合成系统文本分析模块中的韵律边界自动划分技术为背景,重点研究了维吾尔语词性自动标注技术:首先根据应用领域的特点确定词性的种类及其判定规则,筛选文本句子并对其进行手动词性标注,然后通过统计获得了词性概率表和词性对照表,最后采用基于HMM模型的二元文法来实现维吾尔语词性自动标注。在实验中,为了验证算法的有效性,筛选了10000条句子作为训练样本,另选用500条句子作为测试样本。实验结果表明,该研究思路的可行性和有效性。  相似文献   

10.
汉语语料词性标注自动校对方法的研究   总被引:6,自引:0,他引:6  
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。  相似文献   

11.
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。  相似文献   

12.
基于规则学习的韵律结构预测   总被引:11,自引:4,他引:11  
韵律结构的分析和预测作为提高语音合成系统自然度的一个重要核心组成, 日益受到重视。本文提出了一种基于规则学习的汉语韵律结构预测方法, 该方法从人工韵律标注的语料库中抽取语言学特征和两级韵律结构标记, 构建了实例数据库(example database), 再利用规则学习(rule learning)算法从实例中自动归纳韵律短语预测规则。本文通过大量的实验挑选出对于汉语韵律结构预测最有效的特征, 采用和比较了两种典型的规则学习算法。同时, 对于实验结果给出了较为系统的评价参数。实践表明, 规则学习算法用于韵律结构预侧达到了90%以上的正确率, 优于目前其他方法的结果, 是一种行之有效的办法。  相似文献   

13.
提出了一种的、基于扩张矩阵理论的归纳学习算法:分组覆盖算法,并钭其应用于汉语文语转换系统中的韵律短语分析问题。算法以扩张矩阵为基础,在反例样本集背景下,将正侧样本集划分为若干个一致的组,每一组对应于一个一致的规则,它覆盖了这组正侧而且不覆盖任何的反例;建造了一个用于韵律短语分析的语料库,并提出了一组与韵律有关的特征;将数据分为训练集和测试集对算法进行了验证。实验结果表明,新算法在正确率、规则个数和可懂性等各方面均优于传统的决策树方法,并接近于手工制定的规则。  相似文献   

14.
基于约束模型的韵律短语预测   总被引:1,自引:2,他引:1  
本文提出了基于语法约束和长度约束的韵律短语预测模型。在语法约束模型中,我们引入了组块作为基本的节律分析单元。韵律短语的长度约束模型是利用隐马尔科夫模型对语句中韵律短语的长度规划进行建模,这个模型对短语的长度分布及韵律词与韵律短语的关系进行了描述。最后,利用一个称为k-候选的方法来融合这两个约束模型。整个方法充分利用了韵律短语的语法约束和长度约束,并将之有机地结合起来。试验表明,该预测模型达到了很好的效果,韵律短语边界识别的调和平均值达到82.9%。  相似文献   

15.
基于概率统计的韵律短语分析   总被引:7,自引:0,他引:7  
韵律短语分析是文语转换(Text-to-Speech)系统的重要组成部分。文章实现了一个基于概率统计的韵律短语分析方法。它首先构造了一个带有韵律短语间隔标记和词语POS信息的样本库,然后用它来训练和测试一个二元组模型,并针对出现的各种问题,提出了四种改进的思路。  相似文献   

16.
基于分类回归树CART的汉语韵律短语边界识别   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于分类回归树(Classification And Regression Tree,CART)的汉语韵律短语识别方法。该方法从语音流中提取与韵律短语边界有关的声学特征,从文本中提取短语边界的语言学特征,并将两类特征有机结合构成CART特征集,建立CART决策模型。开放测试结果显示,利用该CART模型在词边界中识别韵律短语边界,其识别准确率平均可达95.91%。  相似文献   

17.
在英文语音合成系统中,韵律短语边界预测的精度对合成语音的自然度和可懂度有着至关重要的影响。基于决策树的预测方法是现阶段最为常用的韵律短语边界预测方法,但因决策树构建时受到数据平衡性制约,难以针对关键词进行建模,而且在基于决策树进行预测时采用了局部最优的搜索方式无法达到全局最优。所以,为了进一步提升韵律短语边界的预测效果,对基于决策树的预测方法进行了改进,引入韵律短语条件概率,使用Viterbi算法同时优化韵律短语边界概率和条件概率,并提出了基于关键词在韵律短语中的位置分布特性的决策树节点概率优化方法。实验表明,在基线系统上使用改进方法后,F-Score由68.7%提升到77.8%,而不可接受率从22.4%降低到15.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号