首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。  相似文献   

2.
指代消解中距离特征的研究   总被引:1,自引:0,他引:1  
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,而没有考虑距离在生成训练样例中的作用,本文通过把候选词和先行语的距离作为一个特征加入机器学习算法和作为限制条件用于指代关系候选实例的产生两方面进行详细研究,在MUC-6基准语料库上评测,实验结果表明,合理利用距离特征能够大大提高系统的性能。最终,本文采用最大熵和SVM两种分类器在测试集上分别获得了67.5和68.7的F1值,该结果优于同类型的其他系统。  相似文献   

3.
指代消解是自然语言处理领域中的一个重要问题。本文引入图对汉语名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并应用关联聚类算法来实现对图的自动划分。相对于传统的link-first和link-best聚类机制,该方法并不是孤立地针对每一对名词短语分别进行共指决策,而是充分考虑了多个名词短语之间的相关性,且不需事先给出聚类的数量以及距离闻值。通过在ACE中文语料上名词短语消解的实验结果表明,该方法是一个有效的指代消解算法。  相似文献   

4.
一种基于图划分的无监督汉语指代消解算法   总被引:6,自引:2,他引:4  
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。  相似文献   

5.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

6.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

7.
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。  相似文献   

8.
针对现有并列名词短语识别不能处理短语序列隐含信息的情况,提出一种新的并列名词短语识别方法。采用隐结构感知模型与条件随机场模型,识别并列名词短语序列以及序列中用于连接并列名词短语的连词和标点。针对并列名词短语序列进行任务描述,建立语料库并选择典型的并列名词短语识别特征进行实验。结果表明,隐结构感知模型由于加入序列中的隐含信息,相比传统条件随机场模型在并列名词短语识别中更有优势,F度量值达到86.36%,进而证明该模型能够用于以信息抽取为导向的并列名词短语识别。  相似文献   

9.
随着篇章理解、信息融合要求的日益迫切,提高事件指代消解系统的性能逐渐成为一个研究热点。事件指代的指代词指代的是事件、事实或者命题等实践性、抽象性对象。该文对名词短语的事件指代消解进行研究,使用平面特征、结构化句法特征和语义特征等,根据SVM机器学习的方法进行英文事件的指代消解,通过在计算事件语义相似度的元组(语义角色)中加入时间和地点元素改进语义特征来提高事件指代消解系统的性能;并且单独使用每种特征对语料进行实验,分析每种特征单独使用时对系统的影响;OntoNotes 4.0语料库上的实验结果显示,引入改进的语义特征后,与基准系统相比,系统的准确率和F值均有所提高。由此来看,在语义特征中加入时间和地点元素对事件指代消解具有的正向作用。  相似文献   

10.
张江  田生伟  禹龙 《计算机仿真》2020,37(4):255-259
提出了一种利用CNN_BiLSTM双重通道模型的维吾尔语名词短语指代消解。利用包含维语语言特点的Hand-crafted特征初步筛选先行语和照应语,减少不必要的负例,然后使用wordembedding将先行语和照应语向量化,并作为CNN_BiLSTM双重通道模型的输入,使用双通道模型提取空间语义特征和时间语义特征。两种特征融合之后训练softmax分类器,最终完成指代消解任务。上述方法在维吾尔语名词短语指代消解任务中的准确率为84.3召回率为78.1,F1值为81。实验结果表明,充分利用CNN和BiLSTM分别提取时间和空间双重特征的,可以有效提高维吾尔语名词短语指代消解的性能。  相似文献   

11.
针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的“噪声”。实验结果表明,该中文共指消解方法能提高共指消解的性能, 值达到80.72%。  相似文献   

12.
基于树核函数的“it”待消解项识别研究   总被引:3,自引:1,他引:2  
该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项“it”的识别问题。围绕“it”是否是待消解项,该文采取有效策略获得“it”句法结构信息与平面特征信息,并将它们结合起来生成“it”待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。  相似文献   

13.
深入研究了中英文指代消解中的待消解项识别问题.在前人工作的基础上,首先使用规则方法识别与上下文无关或具有显著固定模式的非待消解项;针对与上下文相关的非待消解项识别,从平面特征方法和结构化树核函数方法两方面入手进行了探索;利用复合核函数将平面特征和结构化特征有效结合,对待消解识别问题进行了进一步研究.在ACE2003英文语料和ACE2005中文语料上的实验结果表明,提出的多种待消解项识别方案各具特色,都取得了不错的性能.最后将得到的待消解项识别模块应用于中英文的指代消解任务.实验结果表明,合适的待消解项识别能够大大提高中英文指代消解的性能.  相似文献   

14.
Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases.However,it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation.This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolutio...  相似文献   

15.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

16.
庞宁  杨尔弘 《中文信息学报》2008,22(2):24-27,54
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号