首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.  相似文献   

2.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

3.
汉语中人称代词的消解研究   总被引:15,自引:0,他引:15  
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。  相似文献   

4.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

5.
指代消解的基本方法和实现技术   总被引:18,自引:11,他引:18  
指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。  相似文献   

6.
指代消解中距离特征的研究   总被引:1,自引:0,他引:1  
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,而没有考虑距离在生成训练样例中的作用,本文通过把候选词和先行语的距离作为一个特征加入机器学习算法和作为限制条件用于指代关系候选实例的产生两方面进行详细研究,在MUC-6基准语料库上评测,实验结果表明,合理利用距离特征能够大大提高系统的性能。最终,本文采用最大熵和SVM两种分类器在测试集上分别获得了67.5和68.7的F1值,该结果优于同类型的其他系统。  相似文献   

7.
句间回指消解是当前中文信息处理的一个重要研究课题,直接从语义和语用入手,以法律文本为语料来源,对句间回指进行形式化描述和消解,服务于计算机句群自动理解。概念基元是“显微镜”,看清指代语与先行语的微观语义联系;句类是“放大镜”,将指代语和先行语纳入57组基本句类中进行关联;语境单元则是“望远镜”,为指代语和先行语提供宏观的语境知识。语料考察结果表明,这一多层次的消解模型对实现句间回指消解是有效的。  相似文献   

8.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

9.
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2?306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。  相似文献   

10.
事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。  相似文献   

11.
汉语中的零形回指及其在汉英机器翻译中的处理对策   总被引:5,自引:0,他引:5  
回指是语篇衔接的重要手段,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法,并提出在句组层面上解决问题的算法。  相似文献   

12.
篇章分析技术综述   总被引:1,自引:0,他引:1  
篇章作为词和句子之后的一种文本分析粒度在自然语言理解和自然语言生成中起到至关重要的作用。该文从计算语言学角度出发,对中英文篇章分析技术的研究现状进行了综述。介绍了中英文篇章分析技术在自然语言处理中的应用,并分别从篇章理论、篇章语料库及评测、篇章分析器的自动构建等方面详细阐述了中英文篇章分析技术。最后归纳出篇章分析技术后续研究的几个方向。  相似文献   

13.
自然语言处理中句群划分及其判定规则研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴晨  张全 《计算机工程》2007,33(4):157-159
在自然语言处理,尤其是在基于语法和语义规则的信息检索、机器翻译系统中,对于句群的处理显得格外重要。它是计算机从理解孤立的词义和句义上升到理解篇章整体中心内容的一个重要的跃变步骤。作为句群理解的关键一步,句群的识别显得尤为重要。该文从句群本身的构成特点出发,对句群进行了内部语义组合方式的划分,这一划分适宜计算机进行处理。根据已经取得的“HNC语言概念空间表示”的研究成果,制定了识别具有以上构成特点句群的相关规则。实验表明,划分方法具有很高的句群覆盖率,同时切分规则具有很高的准确度。  相似文献   

14.
基于PLSA模型的文本分割   总被引:13,自引:0,他引:13  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用 .基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系 .实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6.06%,远远低于其他同类算法 .  相似文献   

15.
针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法.该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分.实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ 达到85.37%、错误分割率WindowDiff降到24.08%.同时该方法在句群划分任务上有更大的优势,比传统MDA方法有更好的句群划分效果.  相似文献   

16.
在自然语言处理研究领域中,句法研究已经取得了可喜的进展,语义研究也日益受到重视。但要真正实现计算机理解自然语言的目标,还必须进一步深入开展语用分析研究,目前还很少有这方面的研究成果。语境是语用学研究中的重要内容,本文首先讨论了现代语言学关于语境的定义,对计算语言学中的语境作了科学的界定,然后给出了语境及其相关概念的形式定义,并结合汉语实例进行了分析。最后指出“计算语用学”这一计算语言学领域中的新兴学科将大有可为。  相似文献   

17.
篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。  相似文献   

18.
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。  相似文献   

19.
篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、主题抽取、问答系统等)提供有力的支撑.目前篇章结构分析主要集中在微观的层面,分析重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,本文以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.本文探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型等三个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上本文标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析.  相似文献   

20.
基于篇章结构的文本自动标引算法   总被引:3,自引:0,他引:3  
通过对输入文本分析,划分文本的篇章结构,分为依次存在包含关系的全文章节、段落、复句、分句五个层次,用文本结构树来表示.给出了标记方法,并在此基础上讨论并实现了文本篇章结构的自动标引,提出了两个标引算法并给出了比较结果,为自动文摘后续工作给予了很大帮助.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号