首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
2.
对象共指消解是语义Web研究中的一个关键问题。虽然目前已有许多不同的对象共指消解方法,但是它们的效率还不能满足实际使用的要求。MapReduce框架具有简单性和较强的计算能力,已被广泛用于各种数据并行处理任务。基于MapReduce的两个不同阶段,分别提出了两种并行算法来消解对象共指。具体地,给定一个初始训练集合和一个阈值,算法能够高效地发现一组具有可判别度的属性,并且满足它们的确信度高于预先给定的阈值。这些具有高可判别度的属性将被用于识别拥有相似取值的对象共指。基于真实数据集,通过人为增大数据集规模,验证了基于MapReduce算法的有效性。  相似文献   

3.
魏萍  巢文涵  罗准辰  李舟军 《计算机科学》2018,45(12):130-136, 147
随着社交媒体的发展与普及,如何识别短文本中事件描述的共指关系已成为一个亟待解决的问题。在传统的事件共指消解研究中,需要从NLP工具和知识库中获得丰富的语义特征,这种方式不仅限制了领域的扩展性,而且还导致了误差传播。为了打破上述局限,提出了一种新颖的基于事件触发词来选择性表达句子语义的方法,以判断短文本中事件的共指关系。首先,利用双向长短记忆模型(Bi-LSTM)提取短文本的句子级语义特征和事件描述级语义特征;其次,通过在句子级特征上应用一个基于事件触发词的选择门来选择性表达句子级语义,以产生潜在语义特征;然后,设计了触发词重叠词数和时间间隔两个辅助特征;最后,通过融合以上特征形成一个分类器来预测共指关系。为评估上述方法,基于Twitter数据标注了一个新的数据集EventCoreOnTweets(ECT)。实验结果表明,与两个基准模型相比,提出的选择性表达模型显著提升了短文本共指消解的性能。  相似文献   

4.
共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,并取得了大量研究成果。该文首先介绍了共指消解问题的基本概念,并采用形式化的方法对该问题做了描述;然后,针对国内外近年来在共指消解研究中的方法进行了总结;之后,对共指消解中重要的特征问题进行了分析与讨论;最后,历数了共指消解的各种国际评测,并对未来可能的研究方向进行了展望。  相似文献   

5.
共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展。背景知识作为新的研究热点已经被越来越多地利用在自然语言处理的各个领域。该文集成多种背景语义知识作为基于二元分类的共指消解框架的特征,分别在WordNet、维基百科上提取背景知识,同时利用句子中的浅层语义关系、常见文本模式以及待消解词上下文文本特征。并利用特征选择算法自动选择最优的特征组合,同时对比同样的特征下最大熵模型与支持向量机模型的表现。在ACE数据集上实验结果表明,通过集成各种经过特征选择后的背景语义知识,共指消解的结果有进一步提高。  相似文献   

6.
提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,以及基于维基百科的语义相关特征,重定向特征及上下文特征在测试集上的效果。实验结果表明,除单纯使用语义角色特征会使系统F值下降1.31%以外,其余各种语义知识对共指消解模型的结果均有所提高。  相似文献   

7.
来自异构数据源的语义数据集之间关联的缺失严重影响了数据网的构建和发展。语义数据集中,实例数据之间共指关系的发现和构建能够丰富数据集之间的关联,从而有助于在数据集之间进行推理和查询。在基于相似度分析的共指关系构建的过程中,实例属性的权重及属性值的相似度对实例相似度具有重要作用。提出一种新的基于数据集统计信息计算属性权重的模型,并从概率统计的角度证明其合理性。同时分析了这种权重计算模型相对于传统的权重计算方法的优势。基于新的权重计方法,实现了共指关系构建系统,并利用开放的语义数据集验证了其正确性。  相似文献   

8.
事件共指消解是很多自然语言处理任务的基础,旨在识别文本中指代相同真实事件的事件提及。由于中文语法相比英文更复杂,捕获英文文本特征的方法在中文事件共指消解中效果并不明显。为解决文档内中文事件共指,提出了一种门控机制神经网络(Gated Mechanism Neural Network, GMNN)。针对中文具有主语省略、结构松散等特点,引入事件基本属性作为符号特征。在此基础上,提出了一种新的门控去噪机制,对符号特征向量进行微调,过滤符号特征中的噪声,提取在特定上下文语境中的有用信息,进而提高共指事件的识别率。在ACE2005中文数据集上进行了实验,结果表明,GMNN的AVG分数提升了2.66,有效地提高了中文事件共指消解的效果。  相似文献   

9.
本文针对中文共指消解的具体任务,提出采用谱聚类的方法进行共指消解。首先,在待消解项对上抽取特征,使用最大熵模型判断两个待消解项存在共指关系的概率;然后,以此概率值作为相似度进行谱聚类;最后,得到若干实体,实现共指消解。该方法能从全局的角度进行实体划分,有效的提高准确率。在ACE2007标准数据集上的Diagnostic实验结果表明该方法的ACE Value比baseline方法有了2.5%的提高,Unweighted Precision值有5.4%的提高。  相似文献   

10.
指代是一种重要的语言现象,运用指代可以避免复杂的词语在句子中重复出现,使语句简洁连贯。在多轮口语对话中,使用代词指代实体可以提高沟通的效率,然而,对话中频繁出现的代词给计算机语言理解增加了难度,进而影响了机器生成回复的质量。该文提出通过消解代词提高对话生成质量,先通过端到端的共指消解模型识别出多轮对话中蕴含的表述同一实体的所有代词和名词短语,即指代簇(coreference clusters);然后使用两种不同的方法,利用指代簇信息增强对话模型: ①使用指代簇信息恢复问句的完整语义,以降低机器语言理解的难度; ②使用图卷积神经网络将指代簇信息编码融入对话生成模型,以提高机器理解对话的能力。该文所提的两个方法在RiSAWOZ公开数据集上进行了验证,实验结果表明,两个方法均可以显著提升对话生成的性能。  相似文献   

11.
指代消解综述   总被引:3,自引:0,他引:3       下载免费PDF全文
给出指代消解的基本概念,从指代消解的语料资源、评测系统和算法3个方面出发,介绍指代消解的国内外研究现状,分析制约指代消解的3个关键问题:结构化句法信息的自动获取和表示,深层次语义信息的自动获取和使用,跨文本指代消解,基于分析结果给出国际上指代消解的研究趋势。  相似文献   

12.
命名实体识别、排歧和跨语言关联   总被引:5,自引:0,他引:5  
命名实体是文本中承载信息的重要语言单位,命名实体的识别和分析在网络信息抽取、网络内容管理和知识工程等领域都占有非常重要的地位。有关命名实体的研究任务包括实体识别、实体排歧、实体跨语言关联、实体属性抽取、实体关系检测等,该文重点介绍命名实体识别、排歧和跨语言关联等任务的研究现状,包括难点、评测、现有方法和技术水平,并对下一步需要重点解决的问题进行分析和讨论。该文认为,命名实体识别、排歧和跨语言关联目前的技术水平还远远不能满足大规模真实应用的需求,需要更加深入的研究。在研究方法上,要突破自然语言文本的限制,直接面向海量、冗余、异构、不规范、含有大量噪声的网页信息处理。  相似文献   

13.
事件同指消解在自然语言理解中是一项复杂的任务,它需要在理解文本信息的基础上,发现其中的同指事件。事件同指消解在信息抽取、问答系统、阅读理解等自然语言任务中均有重要作用。该文提出了一个事件同指消解框架,包括事件抽取(ENS_NN)、真实性识别(ENS_NN)和事件同指消解(AGCNN)三个部分。事件同指消解模型(AGCNN)利用注意力池化机制来捕获事件的全局特征,利用门控卷积抽取复杂语义特征,提高了事件同指消解的性能。在KBP 2015和KBP 2016数据集上的实验结果表明,该文提出的方法优于目前最优的系统。  相似文献   

14.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

15.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

16.
基于最大熵模型的英文名词短语指代消解   总被引:11,自引:0,他引:11  
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。  相似文献   

17.
事件同指消解是自然语言处理中一个具有挑战性的任务,它在事件抽取、问答系统和阅读理解中具有重要作用。针对事件的语义信息主要由触发词和论元表示这一个特点,该文将事件进行结构化表示并输入一个基于门控和注意力机制的模型GAN-SR(gated attention network with structured representation),在文档内进行中文事件同指消解。首先,该模型采用语义角色标注和依存句法分析技术对事件句进行浅层语义分析,抽取事件句信息并表示为一个事件五元组。其次,将各种事件信息输入GRU进行编码,然后使用多头注意力机制挖掘事件句和事件对之间的重要特征。在ACE2005中文语料库上的实验表明,GAN-SR的性能优于目前性能最好的基准系统。  相似文献   

18.
事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号