This paper discusses the comparative evaluation of five well-known pronoun resolution algorithms conducted with the help of a purpose-built tool for consistent evaluation in anaphora resolution, termed the evaluation workbench. The workbench enables the evaluation and comparison of pronoun resolution algorithms on the basis of the same preprocessing tools and test data. The tool is controlled by the user who can conduct the evaluation according to a variety of parameters, with regard to the types of anaphors and the samples used for evaluation. The extensive comparative evaluation of the pronoun resolution algorithms showed that their performance was significantly lower than the figures reported in the original papers describing the algorithms. The evaluation study concluded that the main reason for this drop in performance is the fact that all algorithms operate in a fully automatic mode.  相似文献   

Under statistical learning framework, the paper focuses on how to use traditional linguistic findings on anaphora resolution as a guide for mining and organizing contextual features for Chinese co-reference resolution. The main achievements are as follows. (1) In order to simulate "syntactic and semantic parallelism factor", we extract "bags of word form and POS" feature and "bag of seines" feature from the contexts of the entity mentions and incorporate them into the baseline feature set. (2) Because it is too coarse to use the feature of bags of word form, POS tag and seme to determine the syntactic and semantic parallelism between two entity mentions, we propose a method for contextual feature reconstruction based on semantic similarity computation, in order that the reconstructed contextual features could better approximate the anaphora resolution factor of "Syntactic and Semantic Parallelism Preferences". (3) We use an entity-mention-based contextual feature representation instead of isolated word-based contextual feature representation, and expand the size of the contextual windows in addition, in order to approximately simulate "the selectional restriction factor" for anaphora resolution. The experiments show that the multi-level contextual features are useful for co-reference resolution, and the statistical system incorporated with these features performs well on the standard ACE datasets.  相似文献   

自动文摘系统中一个关键的问题是找出能构成摘要的重点句子。找出这些句子的方法很多,但用机器学习的方法却较少,该文提出了一种关于文摘句式的自动学习方法。该方法以经过简单的预处理的若干语句为训练样本集,以正例句为基点进行由底向上的泛化学习,抽象出关于句式的一般概念,形成句式规则集,作为判断文中哪些语句可作为文摘句的有效手段。这是文摘系统实现的核心部分。  相似文献   

关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相关概念;接着介绍目前国际上汉语零形回指消解的公开评测资源OntoNotes 5.0数据集及评价指标;其次,系统梳理和对比了国内外汉语零形回指消解所采用的方法;最后,总结和分析了目前零形回指消解研究的主要制约因素,这些因素也正是未来可能的研究方向。  相似文献   

Stance detection aims to automatically determine whether the author is in favor of or against a given target. In principle, the sentiment information of a post highly influences the stance. In this study, we aim to leverage the sentiment information of a post to improve the performance of stance detection. However, conventional discretemodels with sentimental features can cause error propagation. We thus propose a joint neural network model to predict the stance and sentiment of a post simultaneously, because the neural network model can learn both representation and interaction between the stance and sentiment collectively. Specifically, we first learn a deep shared representation between stance and sentiment information, and then use a neural stacking model to leverage sentimental information for the stance detection task. Empirical studies demonstrate the effectiveness of our proposed joint neural model.  相似文献   

We are concerned with developing a computational method for selecting possible antecedents of referring expressions over sentence boundaries. Our stratified model which uses a Λ-categorial language for meaning representation incorporates valuable features of Fregean-type semantics (a la Lewis, Montague, Partee, and others) along with features of situation semantics developed by Barwise and Perry. We consider a series of selected two-sentence stories which we use to illustrate referential interdependencies between sentences. We explain the conditions under which such dependencies arise, explain the conditions under which various translations can be performed, and formalize a set of rules which specify how to compute the reference. We restrict our discussion to two-sentence stories to avoid most of the problems inherent in where to look for the reference, that is, how to determine the proper antecedent. We restrict our considerations in this paper to situations where a reference, if it can be computed at all, has a unique antecedent. Thus we consider examples such as John wants to catch a fish. He (John) wants to eat it. and John interviewed a man. The man killed him (John). We then summarize the transformation which encompasses these rules and relate it to the stratified model. We discuss three aspects of this transformation that merit special attention from the computational viewpoint and summarize the contributions we have made. We also discuss the computational characteristics of the stratified model in general and present our ideas for a computer realization; there is no implementation of the t"ratified model at this time.  相似文献   

房至一 《计算机学报》1993,16(12):918-924
急迫性和时限是实时处理系统的两个重要特征。本文介绍基于这两个特征而设计的数据冲突分解协议及其性能评估。初步分析结果表明,急迫性和时限的分布情况以及相应的数据冲突分解协议对实时处理系统的性能有重要影响。  相似文献   

指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

基于知觉加工模式的发展式分词算法   总被引:2,自引:0,他引:2  
危辉 《计算机研究与发展》2001,38(11):1281-1289
分词是自然语言理解的一个重要过程,由于语言问题又是最重要的心理学问题之一,所以从认知心理学和发展心理学的观点出发,将分词问题看成是知觉问题在语言信息处理过程中的一部分,把知觉表达和知觉的双向加工过程引入对分词问题的分析,并同时考虑言语发展的心理过程,把对言语发展规律的归纳作为构造学习算法的基础和模板,以进化的方式来逐步改进自然语言理解系统的性能,从而避免知识获取瓶颈在自然语言理解问题中的出现。  相似文献   

王潮  徐卫伟  周明辉 《软件学报》2024,35(2):513-531
代码注释作为辅助软件开发群体协作的关键机制,被开发者所广泛使用以提升开发效率.然而,由于代码注释并不直接影响软件运行,使其常被开发者忽视,导致出现代码注释质量问题,进而影响开发效率.代码注释中存在的质量问题会影响开发者理解相关代码,甚至可能产生误解从而引入代码缺陷,因此这一问题受到研究者的广泛关注.采用系统文献调研,对近年来国内外学者在代码注释质量问题上的研究工作进行系统的分析.从代码注释质量的评价维度、度量指标以及提升策略这3个方面总结研究现状,并提出当前研究所存在的不足、挑战及建议.  相似文献   

共指消解是自然语言处理的核心问题之一。本文针对分步消解中分类器全局信息的不足,依据分类信心对全体提及配对进行排序,优先根据可靠的分类结果对提及进行聚集或分离。实验表明,该算法在多个学习框架下显著地改善了系统的整体性能。  相似文献   

共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,并取得了大量研究成果。该文首先介绍了共指消解问题的基本概念,并采用形式化的方法对该问题做了描述;然后,针对国内外近年来在共指消解研究中的方法进行了总结;之后,对共指消解中重要的特征问题进行了分析与讨论;最后,历数了共指消解的各种国际评测,并对未来可能的研究方向进行了展望。  相似文献   

随着国内医保病种付费方式改革的稳步推进,疾病种类的准确规范成为医保事业中亟待解决的问题,也是新医改顺利进行的关键环节.目前存在的最大难题是医院的病种名称和疾病编码不规范,对应关系混乱.因此,提出一种算法组合的疾病种类预测模型.首先对住院病案首页数据作质量检测和清洗等预处理,然后通过过采样和加大敏感数据权重等方法生成数据...  相似文献   

回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的汉语零形回指解析方法。该文从语言学角度对这些理论研究进行介绍,旨在指出语言信息工作者在注重工程实践的同时,应关注并借鉴语言学基础理论研究的成果,而从事中文信息处理的语言学家也应加强语言形式化的研究。  相似文献   

文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

机器阅读理解是自然语言处理领域的研究热点之一,对提升机器阅读能力和智能水平有着重要意义,为跟进相关领域的研究进展对其进行综述。首先,介绍机器阅读理解的发展历程及主要任务;其次,重点梳理当前选择式机器阅读理解基于深度学习方法的相关工作,并从语义匹配、预训练模型、语义推理、外部知识四个方面展开叙述;归纳总结了相关数据集以及评价指标;最后,对选择式机器阅读理解的未来发展趋势进行了展望。  相似文献   

软件安全性是衡量软件是否能够抵御恶意攻击的重要性质.在当前互联网环境下,黑客攻击无处不在,因而估计软件中可能含有的漏洞数量与类型,即对软件进行安全评估,变得十分必要.在实际中用户不仅需要对未发布、或者最新发布的软件实施安全性评估,对已发布软件也会有一定的安全评估需求,例如当用户需要从市场上互为竞争的多款软件中作出选择,就会希望能花费较低成本、较为客观地对这些软件进行第三方的评估与比较.本文提出了一种由自然语言数据驱动的智能化软件安全评估方法来满足这一要求,该方法基于待评估软件现有用户的使用经验信息来评估软件的安全性,它首先自适应地爬取用户在软件使用过程中对软件的自然语言评价数据,并利用深度学习方法与机器学习评估模型的双重训练来获得软件的安全性评估指标.由于本文的自适应爬虫能够在反馈中调整特征词,并结合搜索引擎来获得异构数据,因而可通过采集广泛的自然语言数据来进行安全评估.另外,使用一对多的机器翻译训练能有效解决将自然语言数据转换为语义编码的问题,使得用于安全评估的机器学习模型可以建立在自然语言的语义特征基础上.我们进一步在国际通用漏洞披露数据库(CVE)和美国国家漏洞数据库(NVD)上对本文方法进行了实验,结果表明,本文方法在评估软件漏洞数量,漏洞类型,以及漏洞严重程度等指标上十分有效.  相似文献   

胡涛  王永刚  薛延学 《计算机应用》2001,21(12):15-16,19
为了在物理网络上建立两台主机的通信,必须要进行地址解析。文中介绍了地址解析技术的机制及实现方法,并比较了因特网上常用的三种地址解析算法的优缺点,给出了相应的应用范围。  相似文献   

隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。  相似文献   

