首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 241 毫秒
1.
事件检测是信息抽取领域的一个重要研究方向,目前的事件检测方法往往受限于数据稀疏、语料例句分布不平衡和歧义问题。该文研究发现框架语义知识库FrameNet(FN)含有丰富的已标注框架的语料,并且FN中定义的框架和事件检测中定义的事件具有极其相似的结构。框架由词法单元和一组框架元素组成,可与事件中的触发词和论元形成对应关系;而且,FN中的许多框架实际上也能表达某些事件。因此,该文利用这一相似性构建事件类型与框架类型的映射关系,从而选取FN中合适的例句作为事件检测的扩充语料,以此来优化事件检测性能。实验结果显示,针对触发词识别任务和事件类型识别任务,该文提出的框架语义辅助方法取得了较好的效果。  相似文献   

2.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

3.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

4.
针对中文事件相关关系识别问题,提出了一种基于神经张量网络的事件相关关系识别方法,将对事件对关系的抽取问题转化为对事件对关系的二分类问题。首先,基于事件的结构特征,抽取包括事件对类型、子类型、论元相似度、触发词依存关系以及论元依存关系共2项事件对结构特征;其次,基于神经张量网络捕获事件对语义特征;并将事件对语义特征与2项事件对结构特征相融合,构建事件对相关关系的二分类模型ECR_NTN,进而完成事件相关关系的识别。实验结果表明所提出的方法和模型具有良好的事件相关关系识别能力,ECR_NTN模型的准确率、召回率、F1值达到75.98%、75.86%、75.92%,与多种主流机器学习方法和深度神经网络模型对比其具有更加优异的性能。  相似文献   

5.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。  相似文献   

6.
微博客蕴含交通事件信息抽取的自动标注方法   总被引:1,自引:0,他引:1  
微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。  相似文献   

7.
丁玲  向阳 《计算机科学》2021,48(5):202-208
事件检测是信息抽取领域中一个重要的研究方向,其主要研究如何从非结构化自然语言文本中提取出事件的触发词,并识别出事件的类型。现有的基于神经网络的方法通常将事件检测看作单词的分类问题,但是这会引起中文事件检测触发词与文本中词语不匹配的问题。此外,由于中文词语的一词多义性,在不同的语境下,相同的词语可能会存在歧义性问题。针对中文事件检测中的这两个问题,提出了一个分层次多粒度语义融合的中文事件检测模型。首先,该模型利用基于字符序列标注的方法解决了触发词不匹配的问题,同时设计了字符-词语融合门机制,以获取多种分词结果中词语的语义信息;然后,通过设计字符-句子融合门机制,考虑整个句子的语义信息,学习序列的字-词-句混合表示,消除词语的歧义性;最后,为了平衡“O”标签与其他标签之间的数量差异,采用了带有偏差的损失函数对模型进行训练。在广泛使用的ACE2005数据集上进行了大量实验,实验结果表明,所提模型在精确率(Precision,P)、召回率(Recall,R)和F1值这3个指标上比现有的中文事件检测模型至少高出3.9%,1.4%和2.9%,证明了所提方法的有效性。  相似文献   

8.
非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法: 采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。  相似文献   

9.
信息抽取是自然语言处理工作中的重要任务之一。针对由于自然语言的多样性、歧义性和结构性而导致的信息抽取困难的问题,提出了一种面向金融事件信息抽取的层次化词汇-语义模式方法。首先,定义了一个金融事件表示模型;然后应用基于深度学习的词向量方法来实现自动生成同义概念词典;最后采用基于有限状态机驱动的层次化词汇-语义规则模式实现了对各类金融事件信息自动抽取的目标。实验结果表明,所提方法可以从金融新闻文本中准确地抽取出各类金融事件信息,并且对26类金融事件的微平均识别准确率达到93.9%,微平均召回率达到86.9%,微平均F1值达到90.3%。  相似文献   

10.
事件同指消解在自然语言理解中是一项复杂的任务,它需要在理解文本信息的基础上,发现其中的同指事件。事件同指消解在信息抽取、问答系统、阅读理解等自然语言任务中均有重要作用。该文提出了一个事件同指消解框架,包括事件抽取(ENS_NN)、真实性识别(ENS_NN)和事件同指消解(AGCNN)三个部分。事件同指消解模型(AGCNN)利用注意力池化机制来捕获事件的全局特征,利用门控卷积抽取复杂语义特征,提高了事件同指消解的性能。在KBP 2015和KBP 2016数据集上的实验结果表明,该文提出的方法优于目前最优的系统。  相似文献   

11.
事件抽取是信息抽取领域的一个研究热点。在新冠肺炎疫情常态化下,利用事件抽取技术可以筛选出有价值的信息。然而事件抽取领域缺乏精标注的新冠新闻训练数据集,且因部分事件的复杂性,论元不只存在于一句话中,需要多个句子才能完整描述一个事件。因此,首先构建新冠肺炎新闻数据集,接着提出一种三阶段的管道方法实现从篇章中抽取新冠肺炎事件。该方法对数据集进行事件类型分类;进行事件句的抽取;实现篇章级论元抽取。实验结果表明提出的方法能够减少事件分类时间,抽取两个事件句的条件下,对数据通报类论元识别效果最好,准确率、召回率和F1值达到75.0%、73.0%,和74.0%,证明方法能有效抽取新冠肺炎相关篇章级事件。  相似文献   

12.
This article presents a novel approach to event extraction from biological text using Markov Logic. It can be described by three design decisions: (1) instead of building a pipeline using local classifiers, we design and learn a joint probabilistic model over events in a sentence; (2) instead of developing specific inference and learning algorithms for our joint model, we apply Markov Logic, a general purpose Statistical Relation Learning language, for this task; (3) we represent events as relations over the token indices of a sentence, as opposed to structures that relate event entities to gene or protein mentions. In this article, we extend our original work by providing an error analysis for binding events. Moreover, we investigate the impact of different loss functions to precision, recall and F‐measure. Finally, we show how to extract events of different types that share the same event clue. This extension allowed us to improve our performance our performance even further, leading to the third best scores for task 1 (in close range to the second place) and the best results for task 2 with a 14% point margin.  相似文献   

13.
事件抽取可以帮助人们从海量的文本中快速、准确地获取感兴趣的事件知识。然而,目前事件抽取的研究主要集中在从单一句子中抽取事件,由于事件构成的复杂性和语言表述的多样性,多数情况下多句才能完整地描述一个事件。因此,从篇章中抽取出完整的结构化事件信息,显得更有价值和意义。该文首先利用基于注意力机制的序列标注模型联合抽取句子级事件的触发词和实体,与独立进行实体抽取和事件识别相比,联合标注的方法在F值上提升了1个百分点。然后利用多层感知机判断实体在事件中扮演的角色。最后,在句子级事件抽取的基础上,利用整数线性规划的方法进行全局推理,融合句子级事件信息,实现篇章级事件抽取,与基线模型相比,这种基于全局推理的篇章级事件抽取在F值上提升了3个百分点。  相似文献   

14.
15.
基于双层模型的维吾尔语突发事件因果关系抽取   总被引:1,自引:0,他引:1  
针对传统事件因果关系识别覆盖范围小和人工标注代价高等不足,提出了一种基于双层模型的维吾尔语突发事件因果关系抽取方法. 该方法采用分治思想,将因果关系抽取问题转化为对事件序列的两次模式识别标注. 采用Bootstrapping算法,在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色标签作为新的特征传递给第二层模式识别,用于因果关系边界标注. 该方法用于维吾尔语突发事件显式因果关系的抽取准确率为85.39%,召回率为77.53%,证明了本文提出的方法在维吾尔语主题突发事件因果关系抽取上的有效性和实用性.  相似文献   

16.
In our approach to event extraction, dependency graphs constitute the fundamental data structure for knowledge capture. Two types of trimming operations pave the way to more effective relation extraction. First, we simplify the syntactic representation structures resulting from parsing by pruning informationally irrelevant lexical material from dependency graphs. Second, we enrich informationally relevant lexical material in the simplified dependency graphs with additional semantic meta data at several layers of conceptual granularity. These two aggregation operations on linguistic representation structures are intended to avoid overfitting of machine learning‐based classifiers which we use for event extraction (besides manually curated dictionaries). Given this methodological framework, the corresponding JReX system developed by the Julie Lab Team from Friedrich‐Schiller‐Universität Jena (Germany) scored on 2nd rank among 24 competing teams for Task 1 in the “BioNLP’09 Shared Task on Event Extraction,” with 45.8% recall, 47.5% precision and 46.7% F1‐score on all 3,182 events. In more recent experiments, based on slight modifications of JReX and using the same data sets, we were able to achieve 45.9% recall, 57.7% precision, and 51.1% F1‐score.  相似文献   

17.
事件句抽取是事件抽取中的核心环节,而在金融领域中,公司名识别则是事件句抽取中的重点和难点。从金融领域的事件句抽取出发,首先充分利用互联网搜索和上市公司名信息进行公司名识别:如果一个N元组是公司名,则进行互联网搜索,其结果中包含“公司”、“集团”等字词多,同时和已经的公司名有较高的匹配度。其次,综合考虑句子位置信息、包含公司名信息、包含领域动词信息、与标题相似度四个方面特征,构造权值表达式。最终从句子集中选出金融事件句。实验表明,公司名识别方法的正确率可达82.28%,召回率达68.93%;事件句抽取的正确率可达66.83%。  相似文献   

18.
音乐领域典型事件抽取方法研究   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号