首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
郑伟发 《福建电脑》2009,25(7):71-72
本文采用中科院句法分析树库所采用的短语标记,基于汉语句子结构中上下文相关的特点,计算隐马尔科夫模型的观察概率,并利用隐马尔科夫模型构建汉语自动句法分析模型,从浅层到完全对句法进行分析;同时,利用规则集和最大成组法对划分歧义进行制约和优选。实验证明,该算法能有效地消除歧义并提高句法分析正确率。  相似文献   

2.
一个汉语短语自动界定模型   总被引:8,自引:1,他引:7  
周强 《软件学报》1996,7(A00):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到的调整规则界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置,从而为时一步的汉语短语自动划分和标注处理打下了良好的基础,对1000多句句子的实验结果表明,模型的界定正确率达到了96.33%(封闭测试)、94.55  相似文献   

3.
汉语短语标注标记集的确定   总被引:25,自引:9,他引:16  
本文提出了一个汉语短语标注的基本标记集, 并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨, 以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。  相似文献   

4.
一个汉语短语自动界定模型*   总被引:5,自引:1,他引:4  
周强 《软件学报》1996,7(Z1):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理.利用通过错误驱动自动学习而得到的调整规则进行界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较好地确定一句经过正确切分和词性标注处理的汉语句子中不同短语的边界位置。从而为进一步的汉语短语自动划分和标注处理打下了良好的基础.对1000多句句子的实验结果表明,模型的界定正确事达到了96.33%(封闭测试)、94.54%(开放测试).  相似文献   

5.
基于边界点词性特征统计的韵律短语切分   总被引:10,自引:6,他引:4  
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则,而且很难保证它在处理大规模真实文本时的强壮性,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试, 词性标注的正确率在95%左右,韵律短语切分的召回率在60%左右,正确率达到了80%。  相似文献   

6.
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算统计概率得到高可靠性子树结构,再根据词对齐信息从可靠性子树结构中抽取初始调序规则集。两种优化策略用于对初始规则集进行优化:基于中英文句法知识规则推导筛选和规则概率阈值控制机制。然后为减少短语内部调序,保证短语局部流利性,采用源语言短语翻译表为约束,使调序控制在短语块之间进行。最后根据获取的优化规则集和短语表约束条件对源语言端句子的句法分析树进行预调序。在基于NIST 2005和2008测试数据集上的汉英统计机器翻译实验结果表明,所提基于N-best句法知识增强的统计机器翻译预调序方法相对于基线系统,自动评价准则BLEU得分分别提高了0.68和0.83。  相似文献   

7.
提出了一种基于范例的汉语短语标注方法,通过对大量语料的人工标注,提供了自动标注的前提。经过对熟语料的统计分析,利用基于范例的方法实现短语自动标注,为自然语言的计算机处理提供基础研究服务。  相似文献   

8.
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。  相似文献   

9.
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。  相似文献   

10.
本文介绍一个基于规则和转换翻译策略的日汉机器翻译系统的设计和实现.该系统的日语分析采用了基于短语结构文法和格语法的句法、语义分析技术.在句法分析中识别出动词短语时,利用动词格框架进行格短语的格角色识别.分析规则采用了复杂特征集和合一运算,并按层次进行设计.日语分析结果为带格角色标记的日语分析树.基于得到的日语分析树,系统采用了转换/生成一体化的汉语生成策略,按深度优先遍历分析树转换/生成汉语.另外,该翻译系统在基于规则的主框架之上,还辅助以翻译记忆的方法.本文的系统参加了863组织的三次机器翻译评测,其中,在2005年的评测中,自动评测的结果(NIST)为6.3052(对话)和6.7836(篇章).  相似文献   

11.
本文对汉语句法规则的自动构造方法进行了一些探索。通过对汉语句法规律的总结和提炼,提出了一套简单灵活的汉语句法元规则描述体系,包括结构元规则集、标记特征表和中心标记表等部件,在此基础上,构造了一个有效的元规则解释器,取得了较好实验效果。  相似文献   

12.
吴晓慧  柴佩琪 《计算机工程》2003,29(2):151-152,160
汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分,在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素g这种词性就过于模糊,导致韵律短语切分点预测得不合理,该文提出了一种修改词类标注集,去掉语素g这种词性的方法,该方法在进行词性标注时,对实语素恰当地柰注出在句中的词性,以便提高韵律短语的正确切分,应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%,并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到75.79%。  相似文献   

13.
基于变换的汉语句法功能标注探讨   总被引:4,自引:1,他引:4  
本文尝试利用基于变换的方法标注中文句子词汇的句法功能。系统输入已分词并标注了词性的句子, 输出每个词的依存关系。我们首先设计了一个由44种依存关系组成的汉语依存体系, 然后以人-机互助的方式标注了1300句中文句子。其中1100句作为训练文本用来获取标注规则, 余下200句用做测试。设计了17类变换模板, 采用基于变换的算法获取了60条有序的依存关系标注规则。在测试时, 对新词标注以该词词性所对应的最高频的依存关系作为初始标注以提高鲁棒性。实验表明这种方法简单可行, 取得了初步满意的效果。  相似文献   

14.
汉语句法树库标注体系   总被引:16,自引:10,他引:16  
语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。  相似文献   

15.
短语树到依存树的自动转换研究   总被引:1,自引:0,他引:1  
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank ,简称TCT) 标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure) 的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97137 %。  相似文献   

16.
条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。
  相似文献   

17.
该文探索了基于树核函数的中文语义角色分类,重点研究如何获取有效的结构化信息特征。在最小句法树结构的基础上,根据语义角色分类的特点,进一步定义了三种不同的句法结构,并使用复合核将基于树核和基于特征的方法结合。在中文PropBank语料上的结果表明,基于树核函数的方法在中文语义角色分类任务中能够取得较好的结果,精确率达到91.79%。同时,与基于特征方法的结合,基于树核函数的方法能够进一步提高前者性能,精确率达到94.28%,优于同类系统。  相似文献   

18.
19.
规则与统计相结合的兼类词处理机制   总被引:5,自引:0,他引:5  
兼类词处理是词性标注的关键所在,本文对兼类词排岐进行了研究,介绍了规则和统计相结合的排岐策略.按照上述策略,实现了一个兼类词处理系统.实验测试结果表明,利用规则与统计相结合的兼类词处理机制可以有效地提高排岐正确率和词性标注正确率,在封闭测试和开放测试中兼类词的排歧正确率分别达到了93.91%和91.16%,标注正确率分别达到了97.85%和96.71%.  相似文献   

20.
基于标点符号分割的汉语句法分析算法   总被引:6,自引:0,他引:6  
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号