首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最...  相似文献   

2.
提出一种基于短语和依存句法结构的中文语义角色标注(SRL)方法。联合短语句法特征和依存句法特征,对句法树进行剪枝,过滤句法树上不可能担当语义角色的组块短语单元和关系结点,对担当语义角色的组块或节点进行角色类别标注。基于正确句法树和正确谓词的识别结果表明,该方法的SRL性能F1值为73.53%,优于目前国内外的同类系统。  相似文献   

3.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.  相似文献   

4.
短语树到依存树的自动转换研究   总被引:1,自引:0,他引:1  
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(Tsinghua Chinese Treebank ,简称TCT) 标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(Dependency Structure) 的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97137 %。  相似文献   

5.
在基于依存的语义角色标注研究中,大多数系统采用机器学习方法进行论元识别和分类。该文分析了依存树的特点,发现论元集中分布于依存树上的特定局部范围内,因此提出一种基于依存树距离的论元识别方法。该方法将候选论元限制在与目标动词的依存树距离不超过3 的范围内,通过制订规则,提取目标动词的最佳候选论元集合。在CoNLL2009中文语料上采用正确的依存树,识别出了98.5%的论元。在此基础上,结合基于机器学习的角色分类,系统F值达到89.46%,比前人的方法 (81.68%)有了较为显著的提升。  相似文献   

6.
基于序列标注模型的分层式依存句法分析方法   总被引:2,自引:0,他引:2  
该文提出了一种全新的分层式依存句法分析方法。该方法以依存深度不大于1的依存层作为分析单位,自底向上构建句子的依存结构。在层内,通过穷尽搜索得到层最优子结构;在层与层之间,分析状态确定性地转移。依存层的引入,使该模型具有比典型的基于图的方法更低的算法复杂度,与基于转换的方法相比,又一定程度上缓解了确定性过程的贪婪性。此外,该方法使用典型序列标注模型进行层依存子结构搜索,证明了序列标注技术完全可以胜任句法分析等层次结构分析任务。实验结果显示,该文提出的分层式依存分析方法具有与主流方法可比的分析精度和非常高的分析效率,在宾州树库上可以达到每秒2 500个英语单词。  相似文献   

7.
基于依存分析的事件识别   总被引:2,自引:1,他引:2  
事件抽取是信息抽取的重要组成部分,事件识别是事件抽取的基础,事件识别的效果直接影响了事件抽取的结果.基于机器学习的方法识别事件需要从词汇中发掘更多的特征.针对当前事件识别方法中存在的不足,提出了一种基于依存分析的事件识别方法.用依存分析发掘触发词与其它词之间的句法关系,以此为特征在SVM分类器上对事件进行分类,最终实现事件识别.实验表明,基于依存分析的事件识别优于传统的事件识别方法,而融合多特征的事件识别F值可提高到69.3%.  相似文献   

8.
在介词短语的识别中,统计学习方法和人工规则方法是人们常采用的两种最主要的方法。在浅层句法分析层次上,基于几种典型模式探讨分析构建介词短语识别模型时,规则方法和统计学习方法的有效结合。指出介词短语特征的提取实质是基于语料的语用规则的一种抽象。提出统计学习方法和人工规则方法的有机结合是未来的发展方向。  相似文献   

9.
安强强  张蕾 《计算机工程》2010,36(4):161-163
现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器进行实验,获得90.68%的F值。结果表明,在标准的句法树上,当基于依存关系的标注系统中加入新特征时,该中文语义角色标注取得了比基于句法成分标注更好的成绩。  相似文献   

10.
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。  相似文献   

11.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。  相似文献   

12.
李业刚  黄河燕  史树敏  鉴萍  苏超 《软件学报》2015,26(7):1615-1625
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.  相似文献   

13.
基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的原极性、修饰极性和动态极性,1)找出了影响句子情感倾向性的4种词性:形容词、动词、副词和名词;2)从词性和汉语句子成分理解的角度,逐一分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验结果表明了该方法的有效性.  相似文献   

14.
汉语短语标注标记集的确定   总被引:25,自引:9,他引:16  
本文提出了一个汉语短语标注的基本标记集, 并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨, 以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。  相似文献   

15.
基于两种句法分析的语义角色标注比较研究   总被引:1,自引:0,他引:1  
首先介绍了短语结构句法树和依存树,比较了两者的差别.然后通过构建基于短语结构句法分析和基于依存句法分析的两个不同的语义角色标注系统,在实验数据的基础上,重点分析短语结构句法分析和依存句法分析的差别以及两者对语义角色标注的影响.实验结果表明,基于依存句法分析的语义角色标注系统的性能略好于基于短语结构句法分析的语义角色标注系统.  相似文献   

16.
汉语短语的自动划分和标注   总被引:13,自引:2,他引:13  
考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。  相似文献   

17.
《软件》2017,(6):62-65
如何从大量信息中获取事件已成为关注的焦点,因此事件识别也就越来越重要。传统对于事件抽取采用字典和机器学习方法,字典包含触发词数量有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了基于词向量和依存分析的方法。该方法利用word2vec模型找到触发词的大量同义词来进行对触发词的扩展,利用依存分析可以发现词与词间的依赖性从而为分类提供特征。最后通过实验进行验证,实验结果表明,该方法是可行的,并且在事件识别和事件要素抽取方面取得了较好结果。  相似文献   

18.
提出了一种基于范例的汉语短语标注方法,通过对大量语料的人工标注,提供了自动标注的前提。经过对熟语料的统计分析,利用基于范例的方法实现短语自动标注,为自然语言的计算机处理提供基础研究服务。  相似文献   

19.
【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。  相似文献   

20.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号