首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 187 毫秒
1.
传统的分步骤事件抽取方法中,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。文中为解决事件类型识别对元素识别的后向依赖问题,将事件抽取看作序列标注,构建一个改进的条件随机域联合标注模型,将事件类型和事件元素在图模型中同时进行标注。同时,通过触发词嵌入试图解决事件抽取中的数据不平衡问题。ACE 2005中文语料上的实验表明,基于该模型的方法提高了事件类型识别的性能,最终F值达到63。53%。  相似文献   

2.
为避免向量空间模型的独立性假设影响事件类型识别,该文提出了一种基于超图的事件类型识别方法。该方法首先用事件超图描写事件元素间的多元有序关系;然后用事件超图模型(由事件超图添加类型组件和层面组件后构成)描述某个(某类)事件在不同观测层面的属性及其结构;最后根据事件的属性及其结构计算其相似度,并借此完成事件类型识别。实验结果显示,此方法识别效率的平均F值达到83.0%,与基于向量空间模型的支持向量机方法和最大熵方法相比,此方法也具有一定优势。  相似文献   

3.
中文事件抽取技术研究   总被引:13,自引:3,他引:13  
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。  相似文献   

4.
基于CRFs和跨事件的事件识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。  相似文献   

5.
事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。  相似文献   

6.
基于依存分析的事件识别   总被引:2,自引:1,他引:2  
事件抽取是信息抽取的重要组成部分,事件识别是事件抽取的基础,事件识别的效果直接影响了事件抽取的结果.基于机器学习的方法识别事件需要从词汇中发掘更多的特征.针对当前事件识别方法中存在的不足,提出了一种基于依存分析的事件识别方法.用依存分析发掘触发词与其它词之间的句法关系,以此为特征在SVM分类器上对事件进行分类,最终实现事件识别.实验表明,基于依存分析的事件识别优于传统的事件识别方法,而融合多特征的事件识别F值可提高到69.3%.  相似文献   

7.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

8.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

9.
生物事件抽取是生物文本挖掘领域的一个重要分支,而触发词识别作为事件抽取的重要子过程,已经吸引了众多的关注。现有的触发词识别方法多为浅层的一阶段方法,训练代价较大,且需要丰富的领域知识抽取大量特征,人工成本较高。因此,该文提出了一种基于两阶段和双向LSTM神经网络的触发词识别方法。首先,将触发词识别分为识别和分类两个阶段,有效地缓解了训练过程中存在的类不平衡问题;其次,在两个阶段中均采用目前性能较好的双向LSTM神经网络来完成二分类任务和多分类任务,避免了浅层机器学习方法抽取人工特征时的代价。此外,利用PubMed数据库下载大规模语料训练带有依存关系的词向量,获得了更加丰富的语义信息,从而有效地提高了触发词的识别性能。该文方法在生物事件抽取通用语料MLEE上已获得目前最好抽取性能,F值为78.46%。  相似文献   

10.
公安警情领域存在大量警情文本数据,如何从不同源、不同格式的警情文本中抽取出案情相关信息是公安情报信息处理工作的一个重要内容。基于公安警情领域数据特点,该文提出了一种结合无触发词事件识别和基于阅读理解的事件论元角色分类的事件抽取方法。该方法首先采用无触发词方法实现事件识别;在事件识别结果的基础上,通过阅读理解方式实现对事件论元角色的分类。实验表明,该文提出的方法在不标注触发词情况下在警情领域数据中能更好地实现事件信息抽取。  相似文献   

11.
Biomedical event extraction is one of the most significant and challenging tasks in biome- dical text information extraction, which has attracted more attentions in recent years. The two most important subtasks in biomedical event extraction are trigger recognition and argument detection. Most of the preceding methods consider trigger recognition as a classification task but ignore the sentence-level tag information. Therefore, a sequence labeling model based on bidirectional long short-term memory (Bi-LSTM) and conditional random field (CRF) is constructed for trigger recognition, which separately uses the static pre-trained word embedding combined with character-level word representation and the dynamic contextual word representation based on the pre-trained language model as model inputs. Meanwhile, for the event argument detection task, a self-attention based multi-classification model is proposed to make full use of the entity and entity type features. The F1-scores of trigger recognition and overall event extraction are 81.65% and 60.04% respectively, and the experimental results show that the proposed method is effective for biomedical event extraction.  相似文献   

12.
在信息抽取越来越重要的今天,作为其重要研究方向,事件抽取也备受关注。选择了基于事件实例的方式,提出在对事件非事件句子分类的基础上,进行事件关键元素提取的研究。在句子分类上抓取句子特征进行分类,随后对包含事件句子中词进行特征抓取分类,选出特定事件元素。选取了SVM多元分类算法,并取得了一定成果。  相似文献   

13.
一种基于角色匹配的事件抽取方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向,事件抽取模式的定义和获取是其中的一个关键问题。提出了一种基于动词论元结构层次模型,将事件元素与动词的语义角色相对应,在实体、词性、关键词层次对事件元素进行语义约束的事件抽取模式定义方法。另外,为减轻模式建设的代价,提出了一种从标注语料中自动归纳事件抽取模式的方法。在此基础上,以发布事件为实例构建了实验系统,实验结果表明该方法的F指数达到71.7%。  相似文献   

14.
事件抽取是信息抽取领域的一个研究热点。在新冠肺炎疫情常态化下,利用事件抽取技术可以筛选出有价值的信息。然而事件抽取领域缺乏精标注的新冠新闻训练数据集,且因部分事件的复杂性,论元不只存在于一句话中,需要多个句子才能完整描述一个事件。因此,首先构建新冠肺炎新闻数据集,接着提出一种三阶段的管道方法实现从篇章中抽取新冠肺炎事件。该方法对数据集进行事件类型分类;进行事件句的抽取;实现篇章级论元抽取。实验结果表明提出的方法能够减少事件分类时间,抽取两个事件句的条件下,对数据通报类论元识别效果最好,准确率、召回率和F1值达到75.0%、73.0%,和74.0%,证明方法能有效抽取新冠肺炎相关篇章级事件。  相似文献   

15.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号