共查询到19条相似文献,搜索用时 109 毫秒
1.
采用优先选择策略的中文人称代词的指代消解 总被引:9,自引:4,他引:9
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。 相似文献
2.
3.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。 相似文献
4.
黄丹凤 《数字社区&智能家居》2013,(15):3447-3448
中文信息处理是NLP(自然语言处理)的一个组成部分,它是研究自然语言的学科,它和其他学科如计算机学,文学,理工学等有着一定的综合联系。中文跨文本指代消解是中文信息处理的核心技术,是提高信息抽取和信息检索正确率的基础,主要任务是解决重名消歧和多名聚合两大问题。该文从基本概念入手,描述在语言处理中典型的指代现象和指代消解所需的基本语言知识;同时简单介绍指代消解中商用的算法和技术。 相似文献
5.
6.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。 相似文献
7.
指代消解处理是自然语言处理的关键环节,也是众多语言工程项目的核心任务。本文针对指代消解的一些基本问题进行阐述,按照时间线索,对国内外各类指代消解技术方法的研究情况进行分析,阐明了指代消解技术目前的主流方法和技术线路,最后对未来汉语指代消解技术的研究前景加以展望。 相似文献
8.
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和OntoNotes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑. 相似文献
9.
10.
与传统新闻文本相比,交互式问答中蕴含着更为丰富的语言现象。在传统的针对新闻文本的指代消解方案的基础上,融入了交互式问答特有的特征集,给出了一个适于交互式问答文本的指代消解方案。具体而言,基于浅层语义角色分析的结果进行话语结构的识别,根据识别出的话语结构进行话语中心及中心跳转的识别。将获取到的话语中心及跳转信息组织成交互式文本特有的特征集,使用交互式问答领域广泛使用的TREC2004和TREC2007的评测语料进行指代消解的实验,结果表明给出的方案能大大提高交互式问答文本中指代消解的性能,系统F值提高了3.2%。 相似文献
11.
汉语中人称代词的消解研究 总被引:15,自引:0,他引:15
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。 相似文献
12.
Dan Cristea 《International Journal of Speech Technology》2009,12(2-3):83-94
The paper deals with the cohesion part of a model of global discourse interpretation, usually known as Veins Theory (VT). By taking the notion of nuclearity (though ignoring relations), from the Rhetorical Structure Theory, VT computes strings of discourse units, called veins, from which domains of accessibility can be determined for each discourse unit. VT’s constructs best fit with an incremental view on discourse processing. Linguistic observations that lead to the elaboration of the theory are presented. Cognitive aspects like short-term memory and on-line summarization are explained in terms of VT’s constructs. Complementary remarks are made on anaphora and its resolution in relation with the interpretation of discourse. 相似文献
13.
回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的汉语零形回指解析方法。该文从语言学角度对这些理论研究进行介绍,旨在指出语言信息工作者在注重工程实践的同时,应关注并借鉴语言学基础理论研究的成果,而从事中文信息处理的语言学家也应加强语言形式化的研究。 相似文献
14.
汉语语篇理解中元指代消解初步 总被引:5,自引:1,他引:5
指代消解是语篇机器理解中的重要一环.研究发现,由于表示语篇本身某一部分而非语篇内容的元指代现象普遍存在,语篇元指代消解也就成为困扰着语篇机器理解实现的困难之一.对语篇中的元指代现象进行了分析,提出句焦点的概念,并在句焦点集的基础上,用优先和过滤算法实现了元指代的消解.在使用自然语料的实验中表明,句焦点集的作用对于元指代机器消解有重要作用.它丰富了语篇分析和表述理论,对汉语语篇分析理解中寻找元指代关系,从而完成连贯语篇意义具有重要意义. 相似文献
15.
Effective anaphora resolution is helpful to many applications of natural language processing such as machine translation, summarization and question answering. In this paper, a novel resolution approach is proposed to tackle zero anaphora, which is the most frequent type of anaphora shown in Chinese texts. Unlike most of the previous approaches relying on hand-coded rules, our resolution is mainly constructed by employing case-based reasoning and pattern conceptualization. Moreover, the resolution is incorporated with the mechanisms to identify cataphora and non-antecedent instances so as to enhance the resolution performance. Compared to a general rule-based approach, the proposed approach indeed improves the resolution performance by achieves 78% recall and 79% precision on solving 1051 zero anaphora instances in 382 narrative texts. 相似文献
16.
17.
18.
19.
汉语中的零形回指及其在汉英机器翻译中的处理对策 总被引:5,自引:0,他引:5
回指是语篇衔接的重要手段,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法,并提出在句组层面上解决问题的算法。 相似文献