首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 62 毫秒
1.
基于依存句法分析的中文语义角色标注   总被引:3,自引:0,他引:3  
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种不同的语料,一种是由标准短语结构句法分析(CTB5.0)转换而来,另一种是CoNLL2009公布的中文语料。系统分别在两种语料的标准谓词和自动谓词的基础上进行实验,在标准谓词上取得的F1值分别为84.30%和81.68%,在自动谓词上的F1值为81.02%和81.33%。  相似文献   

2.
语义角色标注中特征优化组合研究   总被引:2,自引:0,他引:2  
特征决定着语义角色标注的性能,但并非特征越多性能越高.因此,如何优化组合这些特征就显得非常重要.选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验.在正确的句法分析上取得了91.22%的语义角色分类精确率,在自动句法分析上语义角色标注F1值达到了78.07%.实验表明提高性能并不需要很多特征,关键在于特征的优化组合;同时在句法分析中起重要作用的谓词和中心词特征在语义角色标中也发挥了重要作用.  相似文献   

3.
安强强  张蕾 《计算机工程》2010,36(4):161-163
现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器进行实验,获得90.68%的F值。结果表明,在标准的句法树上,当基于依存关系的标注系统中加入新特征时,该中文语义角色标注取得了比基于句法成分标注更好的成绩。  相似文献   

4.
基于最大熵分类器的语义角色标注   总被引:24,自引:2,他引:24  
刘挺  车万翔  李生 《软件学报》2007,18(3):565-573
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法  相似文献   

5.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

6.
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。  相似文献   

7.
基于特征组合的中文语义角色标注   总被引:1,自引:0,他引:1  
提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%.  相似文献   

8.
语义分析中谓词标识的特征工程   总被引:2,自引:0,他引:2       下载免费PDF全文
谓词是句子中的最重要的成分,它的正确与否对语义分析的影响非常大。而众多的特征直接影响到谓词标识的性能,如何组织这些特征显得尤为重要。选取了7个基本特征和30多个新特征以及它们的组合,使用最大熵分类器,在基本特征的基础上通过增加有利特征的方法,使得谓词标注的F1值增长了约5%(由84.7%增加到89.8%),词义识别的F1值增长了约2%(由80.3%增加到82.1%),结果表明,这些新特征及其组合大大提高了性能。  相似文献   

9.
王一成    万福成  马宁 《智能系统学报》2020,15(1):107-113
随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程度依赖较大,因而标注准确率受限较大,已无法满足当前需求。针对上述问题,对基于Bi-LSTM的中文语义角色标注基础模型进行了改进研究,在模型后处理阶段结合了Max pooling技术,训练时融入了词法和句式等多层次的语言学特征,以实现对原有标注模型的深入改进。通过多组实验论证,结合语言学辅助分析,提出针对性的改进方法从而使模型标注准确率得到了显著提升,证明了结合Max pooling技术的Bi-LSTM语义角色标注模型中融入相关语言学特征能够改进模型标注效果。  相似文献   

10.
描述了一个基于依存关系的语义角色标注系统,该系统把依存关系作为语义角色标注的基本单元。通过手工或自动标注出来的依存关系,构造出依存关系树,并从树上抽取特征。用最大熵模型对句中谓词的语义角色进行识别和分类。为了消除不必要的结构化信息,在预处理阶段,依存关系树经过了Xue的剪枝算法处理。通过特征工程,丰富的特征及其组合被应用于系统。最终使用 CoNLL 2008 shared task提供的数据作为训练、开发和测试集,使用手工标注的依存关系,F1值达到了86.25%;使用MSTParser自动产生的依存关系,F1值达到了81.66%。  相似文献   

11.
目前基于机器学习的中文语义角色标注(Semantic Role Labeling,SRL)方法大致可以分为两类:基于深层句法分析的方法和基于浅层句法分析的方法.由于基于这两种方法的SRL系统在性能和健壮性上各有优缺点,本文试图联合基于这两种方法的SRL系统的输出,通过一些全局特征训练出联合模型,对候选角色进行过滤,然后解决不满足句子论元结构限制的冲突角色得到最终标注结果,来提高标注的性能.在Chinese PropBank 1.0语料集上,联合模型的F值达到了78.41%,在基于深层句法分析的SRL的F值67.34%和基于浅层句法分析的SRL的F值71.67%基础上有了显著的提高,从而证明我们的联合方法是非常有效的.  相似文献   

12.
作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大; ②PropBank中谓词框架的定义难度较大; ③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。  相似文献   

13.
中文名词性谓词语义角色标注   总被引:2,自引:0,他引:2  
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.  相似文献   

14.
基于最大熵原则的汉语语义角色分类   总被引:5,自引:1,他引:4  
语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域。与英语方面的研究相比,汉语方面的工作还不是很充分。该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面——语义角色分类进行了深入的研究。在提出了一些新的特征之后,该文还充分利用了语义角色之间的相关性,提取语义角色的上下文特征,从而提高标记的准确率;此外,通过对不同特征的单独研究,笔者发现了不同特征取得最优值时的窗口大小差别很大。发现这一现象后,笔者设计了一种基于贪心策略的选择算法,对不同的特征选择不同的窗口大小,使得标记结果进一步提高。在综合采用了以上的策略之后,笔者的汉语语义角色分类系统可以达到95.00%的准确率,比前人有较为显著的提升。从而证明了笔者的方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号