首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
现有的中文事件抽取方法存在触发词和论元依赖建模不足的问题,削弱事件内的信息交互,导致论元抽取性能低下,特别是论元角色存在重叠的情况下.对此,文中提出基于图注意力和表指针网络的中文事件抽取方法(Chinese Event Extraction Method Based on Graph Attention and Table Pointer Network, ATCEE).首先,融合预训练字符向量和词性标注向量作为特征输入,并利用双向长短期记忆网络,得到事件文本的强化语义特征.再将字符级建模的依存句法图引入图注意力网络,捕获文本中各组成成分的长距离依赖关系.然后,使用表填充的方法进行特征融合,进一步增强触发词和其对应的所有论元之间的依赖性.最后,将学习得到的表特征输入全连接层和表指针网络层,进行触发词和论元的联合抽取,使用表指针网络对论元边界进行解码,更好地识别长论元实体.实验表明:ATCEE在ACE2005和DuEE1.0这两个中文基准数据集上都有明显的性能提升,并且字符级依存特征和表填充策略在一定程度上可以解决论元角色重叠问题.ATCEE源代码地址如下:https://github....  相似文献   

2.
针对目前突发事件触发词抽取方法存在由于分词引起的误差传递而导致触发词提取不准确的问题,提出基于图注意力网络的突发事件触发词抽取模型(ETEGAN)。ETEGAN首先使用Word2vec和BERT预训练语言模型对文本序列进行向量化,将获取到的向量表示与动态词向量相结合,使用双向门控循环单元BiGRU提取上下文特征,并利用图注意力网络GAT提取文本特征,调整重要特征的权重,突出重要词对事件触发词抽取的贡献。实验结果表明,本文模型有效地提高了突发事件触发词识别准确率。  相似文献   

3.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

4.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

5.
因果关系作为一种重要的关系类型在关系推理等许多领域中起着至关重要的作用,因此对因果关系进行抽取是文本挖掘中的一项基本任务.与传统文本分类方法或关系抽取不同,采用序列标注的方法可以抽取文本中的因果实体并确定因果关系方向,不需要依赖特征工程或因果背景知识.主要贡献有:1)拓展句法依存树到句法依存图,将图注意力网络应用到自然语言处理中,引入了基于句法依存图的图注意力网络的概念;2)提出Bi-LSTM+CRF+S-GAT因果关系抽取模型,根据输入的词向量生成句子中每个词的因果标签;3)对SemEval数据集进行修正与拓展,针对其存在的缺陷制定规则重新标注实验数据.在拓展后的SemEval数据集上进行了大量的实验,结果表明:该模型在预测准确率上比现有最优模型Bi-LSTM+CRF+self-ATT提高了0.064.  相似文献   

6.
朱敏  毛莺池  程永  陈程军  王龙宝 《软件学报》2023,34(7):3226-3240
针对事件抽取存在未充分利用句法关系、论元角色缺失的情况,提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism,EEDAM)方法,有助于提高事件抽取的精确率和召回率.首先,基于4种嵌入向量进行句子编码,引入依赖关系,构建依赖关系图,使深度神经网络可以充分利用句法关系.然后,通过图转换注意网络生成新的依赖弧和聚合节点信息,捕获长程依赖关系和潜在交互,加权融合注意力网络,捕捉句中关键的语义信息,抽取句子级事件论元,提升模型预测能力.最后,利用关键句检测和相似性排序,进行文档级论元填充.实验结果表明,采用基于双重注意力机制的事件抽取方法,在ACE2005数据集上,较最佳基线联合多中文事件抽取器(joint multiple Chinese event extractor,JMCEE)在精确率、召回率和F1-score分别提高17.82%、4.61%、9.80%;在大坝安全运行日志数据集上,较最佳基线JMCEE在精确率、召回率和F1-score上分别提高18.08%、4.41%、9.93%.  相似文献   

7.
实体关系抽取是信息抽取的关键任务之一,是一种包含实体抽取和关系抽取的级联任务.传统的实体关系抽取方式是将实体与关系抽取任务分离的Pipeline方式,忽略了两个任务的内在联系,导致关系抽取的效果严重依赖实体抽取,容易引起误差的累积.为了规避这种问题,我们提出一种端到端的实体关系联合抽取模型,通过自注意力机制学习单词特征...  相似文献   

8.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

9.
事件抽取(event extraction)是自然语言处理(natural language processing,NLP)中的一个重要且有挑战性的任务,以完成从文本中识别出事件触发词(trigger)以及触发词对应的要素(argument)。对于一个句子中有多个事件的多事件抽取任务,提出了一种注意力机制的变种——动态掩蔽注意力机制(dynamic masked attention network,Dy MAN),与常规注意力机制相比,动态掩蔽注意力机制能够捕捉更丰富的上下文表示并保留更有价值的信息。在ACE 2005数据集上进行的实验中,对于多事件抽取任务,与之前最好的模型JRNN相比,Dy MAN模型在触发词分类任务上取得了9. 8%的提升,在要素分类任务上取得了4. 5%的提升,表明基于Dy MAN的事件抽取模型在多事件抽取上能够实现领先的效果。  相似文献   

10.
公安警情领域存在大量警情文本数据,如何从不同源、不同格式的警情文本中抽取出案情相关信息是公安情报信息处理工作的一个重要内容。基于公安警情领域数据特点,该文提出了一种结合无触发词事件识别和基于阅读理解的事件论元角色分类的事件抽取方法。该方法首先采用无触发词方法实现事件识别;在事件识别结果的基础上,通过阅读理解方式实现对事件论元角色的分类。实验表明,该文提出的方法在不标注触发词情况下在警情领域数据中能更好地实现事件信息抽取。  相似文献   

11.
当前广为研究的在单个句子范围内的事件抽取方法,难以扩展到从分布在一篇文章里的多个句子中抽取同一事件的完整论元.对此,提出了一种基于深度学习的文档级事件抽取联合模型.首先,利用基于多头自注意力机制的实体识别模块逐句识别文档中的实体并输出其类型.然后,通过定义不同论元角色对事件类型的重要度训练事件类型检测模块,实现在无触发词条件下定位事件表述中心句并判断事件类型.最后,事件论元抽取模块通过在实体语义向量中嵌入实体的类型信息和实体到事件中心句的距离信息,并输入Transformer网络与上下文交换信息,实现在文档范围内抽取全部事件论元.通过对上述三个子模块进行联合训练,进一步实现了端到端的事件抽取,避免了管道式方法的误差传递.在公开数据集上的实验结果表明:在单事件条件下,该模型取得了86.3%的F1值,优于当前最佳的文档级事件抽取方法,并且具有优秀的模型训练速度.  相似文献   

12.
肖升  何炎祥 《计算机科学》2012,39(5):161-164,176
为将动词与其论元间的约束规则应用于事件抽取,在事件模型中引入动词论元结构形成模型变体,围绕模型变体提出基于动词论元结构的中文事件抽取方法。此方法首先对待抽取文本进行预处理和句法分析,得出其语法结构;然后将所得结构与动词论元结构属性进行比较,找出每个动词支配的论元;最后利用论元的语义属性确定与之对应的事件特征并由此完成事件抽取。实验结果显示,此方法能有效提高抽取系统的性能和效率。  相似文献   

13.
余杰  纪斌  刘磊  李莎莎  马俊  刘慧君 《计算机科学》2021,48(11):287-293
临床病历电子化的推广普及使得利用自动化的方法从病历中快速抽取高价值的信息成为可能.作为一种重要的医学信息,肿瘤医疗事件由描述恶性肿瘤的一系列属性构成.近年来,肿瘤医疗事件抽取已成为学术界的一个研究热点,众多学术会议将其发布为评测任务,并提供了一系列高质量的标注数据.针对肿瘤医疗事件属性离散的特点,文中提出了一种中文医疗事件的联合抽取方法,实现了肿瘤原发部位和原发肿瘤大小两种属性的联合抽取和肿瘤转移部位的抽取.此外,针对肿瘤医疗事件标注文本的数量和类型少的问题,提出了一种基于关键信息全域随机替换的伪数据生成算法,提升了联合抽取方法对不同类型肿瘤医疗事件抽取的迁移学习能力.所提方法获得了 CCKS2020中文电子病历临床医疗事件抽取评测任务的第三名,在CCKS2019和CCKS2020数据集上的大量实验验证了所提方法的有效性.  相似文献   

14.
事件抽取技术主要研究如何从非结构化自然语言文本中抽取用户感兴趣的事件信息。它是信息抽取领域的一个重要分支,近年来被广泛应用于情报分析、智能问答、信息检索和推荐系统等领域。文中从事件抽取技术概念和任务出发,对事件抽取技术的数据集和方法进行了全面综述,分析了事件抽取任务的技术研究进展,归纳总结了基于模式匹配、机器学习和深度学习的事件抽取方法;根据模型学习方式的不同和使用特征范围大小的差异,侧重介绍了基于深度学习的方法,探讨和分析了不同方法的优缺点;最后对现阶段研究面临的挑战和未来研究趋势进行归纳,针对现阶段事件抽取面临的低资源场景、模型可移植性低和篇章级事件抽取建模难度大等问题总结了当前的研究趋势。  相似文献   

15.
中文是一种话题结构的语言,其表达方式比较灵活,但句法结构不如英文严谨,导致了事件中论元与触发词的关系较松散。现有的论元抽取方法多数是基于浅层语义的句法结构特征,从而造成了论元抽取性能低下。为了解决这个问题,提出了基于语义的中文事件论元抽取方法。该方法利用角色、实体和触发词的语义,弥补了论元抽取中单纯采用句法特征的缺陷。在ACE2005中文语料上的测试结果表明,该方法与基准系统相比具有更高的性能。  相似文献   

16.
吴婷  孔芳 《中文信息学报》2021,35(10):73-80
关系抽取作为信息抽取的子任务,旨在从非结构化文本中抽取出便于处理的结构化知识,对于自动问答、知识图谱构建等下游任务至关重要。该文在文档级的关系抽取语料上开展工作,包括但不局限于传统的句子级关系抽取。为了解决文档级关系抽取中长距离依赖问题,并且对特征贡献度加以区分,该文将图卷积模型和多头注意力机制相融合构建了图注意力卷积模型。该模型通过多头注意力机制为同指、句法等信息构建的拓扑图构建动态拓扑图,然后使用图卷积模型和动态图捕获实体间的全局和局部依赖信息。该文分别在DocRED语料和自主扩展的ACE 2005语料上进行实验,与基准模型相比,基准模型上融入图注意力卷积的模型在两个数据集上的F1值分别提升了2.03%和3.93%,实验结果表明了该方法的有效性。  相似文献   

17.
当前基于图神经网络的事件抽取模型无法很好解决长距离依赖问题,并且图的构造中没有考虑实体之间的关系,实体也需要结合文档中的多个句子进行推理。为解决这些问题,该文首先使用预训练模型RoBERTa对文档进行编码并输出所有句子的特征表示和文档的上下文信息嵌入表示,能更好地学习中文金融数据的语义特征。其次,构建一个包含文档节点和实体节点的全局图神经网络使不同节点和边的交互有更丰富的表示,加强了文档和实体信息之间的联系。最后,应用图卷积网络捕获了它们之间的全局交互得到实体级图,在此基础上通过改进的路径推理机制来推断实体之间的关系,更好地解决了长距离文档上下文感知表示和跨句子论元分散问题。在CFA数据集上进行了模型验证,实验结果表明,该文所提模型F1值优于对比模型,综合性能得到有效提升。  相似文献   

18.
为解决事件论元识别任务中特征提取不充分、角色重叠及角色论元嵌套等问题,提出一种改进的模型。将机器阅读理解思想融入事件抽取模型,设计问题模板,以BERT预训练模型构建动态词向量表征,融合双流注意力机制提取的特征向量,基于多层指针网络完成事件论元识别,与事件类型检测结果合并作为事件抽取模型的输出。在数据集Du EE上的实验结果表明,该模型获得了较高的准确率、召回率和F1值,验证了改进模型的可行性。  相似文献   

19.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

20.
马春明  李秀红  李哲  王惠茹  杨丹 《计算机应用》2022,42(10):2975-2989
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号