首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
指代消解综述   总被引:3,自引:0,他引:3       下载免费PDF全文
给出指代消解的基本概念,从指代消解的语料资源、评测系统和算法3个方面出发,介绍指代消解的国内外研究现状,分析制约指代消解的3个关键问题:结构化句法信息的自动获取和表示,深层次语义信息的自动获取和使用,跨文本指代消解,基于分析结果给出国际上指代消解的研究趋势。  相似文献   

2.
周炫余  刘娟  罗飞  刘洋  颜晗 《计算机科学》2016,43(2):31-34, 56
指代消解的基本任务是把指向现实世界中相同实体的所有实体表达关联起来。与英文指代消解的研究相比,中文指代消解的研究相对较少,至今没有对现存的中文指代消解模型进行公平的测评和比较,主要原因是现存的中文指代消解模型在训练和测评时采用了不同的语料,且所选用的特征属性也不相同。基于上述原因,实现了5类基本的中文指代消解模型,并在ACE2005中文语料上进行同平台、同语料、同特征的测评。通过测评比较了各类模型的性能,同时分析和探讨了影响中文指代消解模型精度的各种因素。  相似文献   

3.
事件作为文本信息的关键语义组件,对篇章的理解具有重要意义。由于事件具有自身包含信息丰富、表达方式多样,以及在文本中分布稀疏等特点,使得事件指代消解成为自然语言处理领域的一个难点任务。在以往的事件指代消解任务中,多借助人工提取词匹配和句法结构等信息,再基于这些抽取的特征进行消解,然而这些特征并不能有效地处理具有复杂语义的事件任务。该文提出一种端到端的神经网络模型,通过多种词表征、双向循环神经网络和注意力机制来学习上下文的语义内容,从而完成事件的指代消解任务。在KBP2015、2016数据集上进行的事件指代消解实验验证了该文给出模型的有效性。实验结果表明,该神经网络模型能很好地理解文本语义信息,捕捉关键单词,提高事件指代消解任务的性能,最终端到端的事件指代消解性能在CoNLL评测标准下达到39.9%的F1值。  相似文献   

4.
季红洁  赵知纬  钱龙华 《福建电脑》2012,28(11):10-12,45
跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。  相似文献   

5.
随着篇章理解、信息融合要求的日益迫切,提高事件指代消解系统的性能逐渐成为一个研究热点。事件指代的指代词指代的是事件、事实或者命题等实践性、抽象性对象。该文对名词短语的事件指代消解进行研究,使用平面特征、结构化句法特征和语义特征等,根据SVM机器学习的方法进行英文事件的指代消解,通过在计算事件语义相似度的元组(语义角色)中加入时间和地点元素改进语义特征来提高事件指代消解系统的性能;并且单独使用每种特征对语料进行实验,分析每种特征单独使用时对系统的影响;OntoNotes 4.0语料库上的实验结果显示,引入改进的语义特征后,与基准系统相比,系统的准确率和F值均有所提高。由此来看,在语义特征中加入时间和地点元素对事件指代消解具有的正向作用。  相似文献   

6.
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。  相似文献   

7.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

8.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

9.
中文零指代消解问题包括零指代项的识别和零指代项的消解2个相互关联的子任务. 传统的方法在解决该问题时,往往不考虑2个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束. 基于马尔可夫逻辑网络模型可以将零指代项的识别和零指代项的消解2个子任务融合在统一的机器学习框架下进行联合推断与联合学习,采用局部规则分别针对零指代项的识别和消解进行预测,采用全局规则描述这2个子任务间的关联关系. 基于OntoNotes3.0的中文数据集上的实验结果显示,基于马尔可夫逻辑网络的联合学习模型相比于独立学习模型以及多个baseline方法能够获得更好的实验效果.  相似文献   

10.
已有的中文指代消解系统研究大多是基于有监督的机器学习方法,训练集中正负例的比值直接影响到分类器模型,进而影响指代消解结果。针对如何选取训练集正负例比值的问题,实现了一个中文指代消解系统,提出了训练数据正负例比值与指代消解系统评测结果之间的数学模型,并引入一种改进的遗传算法计算训练数据最优比值,使系统评测结果最优。在ACE 2005中文语料上的实验表明,改进的遗传算法更适合指代消解任务,适当增大负例的比值能够提高指代消解系统的性能。  相似文献   

11.
基于事件框架的主题事件融合研究*   总被引:1,自引:0,他引:1  
针对事件抽取获得的单个元事件无法完整描述主题事件的特点,提出了一种主题事件的融合方法,通过该方法将与同一主题相关的所有元事件整合在一起,以层次化的形式表示。首先定义了一种事件融合框架TEFF(topic event fusion framework)。该框架根据各类元事件在主题事件中的作用,将主题事件以层次化的形式表示。同时给出元事件和主题的相关度计算方法,通过该算法来评价元事件和主题的相关度。在TEFF的指导下,通过相关度计算,实现主题事件的融合。在以2008年起的金融危机为主题的实验中,取得了F值为7  相似文献   

12.
基于支持向量机分类和语义信息的中文跨文本指代消解   总被引:2,自引:0,他引:2  
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。  相似文献   

13.
基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。  相似文献   

14.
Under statistical learning framework, the paper focuses on how to use traditional linguistic findings on anaphora resolution as a guide for mining and organizing contextual features for Chinese co-reference resolution. The main achievements are as follows. (1) In order to simulate "syntactic and semantic parallelism factor", we extract "bags of word form and POS" feature and "bag of seines" feature from the contexts of the entity mentions and incorporate them into the baseline feature set. (2) Because it is too coarse to use the feature of bags of word form, POS tag and seme to determine the syntactic and semantic parallelism between two entity mentions, we propose a method for contextual feature reconstruction based on semantic similarity computation, in order that the reconstructed contextual features could better approximate the anaphora resolution factor of "Syntactic and Semantic Parallelism Preferences". (3) We use an entity-mention-based contextual feature representation instead of isolated word-based contextual feature representation, and expand the size of the contextual windows in addition, in order to approximately simulate "the selectional restriction factor" for anaphora resolution. The experiments show that the multi-level contextual features are useful for co-reference resolution, and the statistical system incorporated with these features performs well on the standard ACE datasets.  相似文献   

15.
事件信息抽取是目前信息抽取领域的主要研究方向,为了提高事件信息抽取的准确率,提出一种基于介词用法的事件信息抽取方法.通过对介词用法的研究,掌握了不同介词用法在语言结构中的不同作用,以介词用法信息为背景,完成抽取规则编写.针对规则,完成抽取系统的编写,以达到理想的抽取结果.采用郑州大学提供的语料,通过大量实验,结果准确率、召回率及F值分别达到90.88%、86.92%、88.86%,表明了该方法的有效性.  相似文献   

16.
孙亮  李东  张涛  熊永平  邹百柳 《计算机应用》2005,25(9):2175-2176
引入信息融合技术,利用多个探测工具收集网络信息,并将来自不同类型网络探测工具的信息在不同的层次上进行融合。在数据层融合中,使用模糊逻辑的统计方法识别系统类别、区分网络设备;在决策层融合中,通过系统知识库的支持,获得最可信的网络信息。  相似文献   

17.
高明霞  陈福荣 《计算机应用》2016,36(8):2071-2075
针对中文微博信息的特点及这些特点的可测量性和实际任务,系统地梳理了中文微博信息可信度测量指标,并将其进行了谱系化分析,提出一个基于信息融合的中文微博可信度评估框架CCM-IF。首先,为本质不同的三个异构特征:文本内容、信息作者与信息传播使用了不同的度量方式;其次,基于决策层可信度的模糊认知特点,采用了多维证据理论进行特征融合;最后,收集了新浪微博两个真实数据集进行了一系列实验。实验结果表明,与传统信息检索排序方法平滑语言模型(LMJM)相比,CCM-IF符合用户需求的信息占比提高了10%~20%。因此,作为一个静态质量评估指标,CCM-IF可直接用于微博检索排序、垃圾微博过滤等实际任务。  相似文献   

18.
为克服传统的先分词再识别方法的缺点,提出了一种基于场景信息融合的姓名识别方法。该方法结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息等场景资源对中文名实体的影响,将它们作为姓名识别的依据,同时引入了证据理论,通过场景资源信息的融合,最终识别出人名。通过对互联网上随机抽取的大规模真实语料的开放测试表明,该方法可以取得较高的召回率并同时保证较高的准确率。  相似文献   

19.
目的 针对高分辨率遥感影像普遍存在的同谱异物和同物异谱问题,提出一种综合利用光谱、形状、空间上下文和纹理特征的建筑物分级提取方法。方法 该方法基于单幅高分辨率遥感影像,首先利用多尺度多方向梯度算子构造的建筑物指数和形状特征提取部分分割完整的矩形建筑物目标;然后由多方向线性结构元素和形态学膨胀运算确定投票矩阵,从而获取光照方向,并利用光照方向和阴影特征对已提取建筑物进行筛选,剔除非建筑物对象,完成建筑物初提取;最后借助初提取建筑物对象的纹理特征向量建立概率模型,取得像素级建筑物提取结果,将该结果与影像分割相结合实现建筑物提取。结果 选取两幅高分辨率遥感影像进行实验,在建筑物初提取实验中,将本文方法与邻域总变分法和Sobel算子进行对比,实验结果表明,本文方法适用性强,为后提取提供的建筑物样本可靠性更高。在建筑物提取实验中,采用查准率、查全率和F1分数3个指标进行定量分析,与形态学建筑物指数结合形态学阴影指数算法、邻域总变分结合混合高斯模型和贝叶斯判决算法相比,各项精度指标均得到显著提升,其中查准率提高了2.90个百分点,查全率提高了12.49个百分点,F1分数则提升了8.84。结论 本文提出的建筑物分级提取方法具备一定抗干扰能力,且提取准确性高,适用性强。  相似文献   

20.
使用异常情况或标识的传统入侵检测模型,检测粒度较大,精度较差,且占用系统资源较多。针对上述问题,提出了分布式异常事件融合入侵检测模型。该模型通过事件跟踪等方法降低检测粒度;采用分布式的多节点灰度关联度算法,进行异常事件的信息融合,进行异常事件分析处理。仿真实验证明,该模型的入侵检测精度较高,而系统资源消耗较少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号