首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

2.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.  相似文献   

3.
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2?306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。  相似文献   

4.
一种基于图划分的无监督汉语指代消解算法   总被引:4,自引:2,他引:4  
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。  相似文献   

5.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

6.
以基于机器学习的指代(Anaphora)消解平台为基础,研究代词待消解项识别问题.挖掘能区分代词是否为待消解项的特征集,总结归纳具有规律的代词待消解项的句法结构,使用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代词指代消解平台.在ACE2003基准语料上测试过滤器自身性能及对代词指代消解的贡献.实验表明过滤器具有较高的准确率,能明显地提高代词指代消解系统的性能.  相似文献   

7.
针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息;并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。  相似文献   

8.
指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试, F值达到83.81%,比SVM方法高出2.88%。实验结果表明,同等条件下,该方法能有效提升维吾尔语人称代词消解的精度,有助于维吾尔语指代消解研究。  相似文献   

9.
采用优先选择策略的中文人称代词的指代消解   总被引:9,自引:4,他引:9  
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。  相似文献   

10.
基于树核函数的“it”待消解项识别研究   总被引:2,自引:1,他引:2  
该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项“it”的识别问题。围绕“it”是否是待消解项,该文采取有效策略获得“it”句法结构信息与平面特征信息,并将它们结合起来生成“it”待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。  相似文献   

11.
指代是一种重要的语言现象,运用指代可以避免复杂的词语在句子中重复出现,使语句简洁连贯。在多轮口语对话中,使用代词指代实体可以提高沟通的效率,然而,对话中频繁出现的代词给计算机语言理解增加了难度,进而影响了机器生成回复的质量。该文提出通过消解代词提高对话生成质量,先通过端到端的共指消解模型识别出多轮对话中蕴含的表述同一实体的所有代词和名词短语,即指代簇(coreference clusters);然后使用两种不同的方法,利用指代簇信息增强对话模型: ①使用指代簇信息恢复问句的完整语义,以降低机器语言理解的难度; ②使用图卷积神经网络将指代簇信息编码融入对话生成模型,以提高机器理解对话的能力。该文所提的两个方法在RiSAWOZ公开数据集上进行了验证,实验结果表明,两个方法均可以显著提升对话生成的性能。  相似文献   

12.
人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F1值分别提升了至少12个百分点和6个百分点。  相似文献   

13.
指代消解中距离特征的研究   总被引:1,自引:0,他引:1  
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,而没有考虑距离在生成训练样例中的作用,本文通过把候选词和先行语的距离作为一个特征加入机器学习算法和作为限制条件用于指代关系候选实例的产生两方面进行详细研究,在MUC-6基准语料库上评测,实验结果表明,合理利用距离特征能够大大提高系统的性能。最终,本文采用最大熵和SVM两种分类器在测试集上分别获得了67.5和68.7的F1值,该结果优于同类型的其他系统。  相似文献   

14.
已有的中文指代消解系统研究大多是基于有监督的机器学习方法,训练集中正负例的比值直接影响到分类器模型,进而影响指代消解结果。针对如何选取训练集正负例比值的问题,实现了一个中文指代消解系统,提出了训练数据正负例比值与指代消解系统评测结果之间的数学模型,并引入一种改进的遗传算法计算训练数据最优比值,使系统评测结果最优。在ACE 2005中文语料上的实验表明,改进的遗传算法更适合指代消解任务,适当增大负例的比值能够提高指代消解系统的性能。  相似文献   

15.
提出一套分为两步的代词指代消解算法,算法不需要人工清洗语料及预定义规则.算法第1步采用一些新特征和机器学习算法对名词性指代代词和非名词性指代(non-anaphoric)代词分类,第2步分别对两类代词进行消解.针对名词性代词指代消解,提出了适用于口语对话的特征抽取及表示方法,如代词和候选先行词的距离、语法、语义等的抽取...  相似文献   

16.
实体指代识别(Entity Mention Detection, EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。  相似文献   

17.
汉语中人称代词的消解研究   总被引:15,自引:0,他引:15  
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。  相似文献   

18.
针对越南语事件标注语料稀缺且标注语料中未登陆词过多导致实体识别精度降低的问题,提出一种融合词典与对抗迁移的实体识别模型。将越南语作为目标语言,英语和汉语作为源语言,通过源语言的实体标注信息和双语词典提升目标语言的实体识别效果。采用词级别对抗迁移实现源语言与目标语言的语义空间共享,融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,再使用句子级别对抗迁移提取与语言无关的序列特征,最终通过条件随机场推理模块标注实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,该模型相比主流的单语实体识别模型和迁移学习模型的实体识别性能有明显提升,并且在加入目标语义标注数据后,相比单语实体识别模型的F1值分别增加了19.61和18.73个百分点。  相似文献   

19.
指代消解是自然语言处理中重要的研究课题之一。结合基于实例的学习方法,提出了一种基于Fuzzy Rough集模型的中文人称代词消解方法。该方法的第一步过滤掉与人称代词性别和单复数特征不一致的名词短语,构成候选集,然后按照仅涉及浅层语义和语法知识的属性集对其中的每个名词短语进行标记。第二步利用Fuzzy Rough集模型中相关概念选择代表性较强的实例,并对其进行属性值约简,以提高这些实例的泛化能力。以上两步即为学习阶段。第三步即可根据这些实例判断新输入的名词短语是否为代词的先行语。该方法用人民日报语料进行了测试,测试结果表明该方法是有效的。  相似文献   

20.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号