首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。  相似文献   

2.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

3.
现有的生物医学事件触发词检测存在以下缺陷:保留了与触发词无关的冗余信息;忽略了实体与事件之间的潜在关联性;传统方法容易受到数据稀缺性的影响。针对上述问题,提出了一种两阶段问答范式的生物医学事件触发词检测方法。在事件类型识别阶段,采用基于句法距离的注意力捕获更有意义的上下文特征,排除无关信息的干扰;为了有效利用实体中的潜在特征,采用全局统计的单词-实体-事件共现特征,指导事件类型感知注意力挖掘词与事件之间的强关联性。在触发词定位阶段,根据识别出的事件类型,制定问题回答该事件对应的触发词索引,从而利用丰富的问答数据库实现数据增强。在MLEE语料库上的结果表明,两阶段问答范式、句法距离和事件类型感知注意力都有效地提升了模型性能,所提出的模型取得了81.39%的F1分数,并在多个事件类型上的详细结果均优于其他基线模型。  相似文献   

4.
事件信息抽取是信息抽取任务中的一种,旨在识别并提出一个事件的触发词和元素.由于容易受到数据稀疏的影响,事件要素的抽取是中文事件抽取任务中的一个难点,研究的重点在于特征工程的构建.中文语法相较英文要复杂许多,所以捕获英文文本特征的方法在中文任务中效果并不明显,而目前常用的神经网络模型仅考虑了上下文信息,不能兼顾词法和句法...  相似文献   

5.
贺瑞芳  段绍杨 《软件学报》2019,30(4):1015-1030
事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性.  相似文献   

6.
事件检测与分类是事件抽取的关键环节,触发词抽取是完成事件检测与分类的主流方法。提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词-实体描述对的方法来提高触发词抽取的召回率,然后将触发词-实体描述对抽取结果与单一触发词抽取结果相融合以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中取得较好效果,F值分别达到了69.0%和66.2%。  相似文献   

7.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。  相似文献   

8.
事件抽取是自然语言处理中信息抽取的关键任务之一。事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。在ACE2005中文数据集上的实验表明,提出的中文事件检测模型与现有模型相比,准确率、召回率与F1值都有提升。  相似文献   

9.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

10.
公安警情领域存在大量警情文本数据,如何从不同源、不同格式的警情文本中抽取出案情相关信息是公安情报信息处理工作的一个重要内容。基于公安警情领域数据特点,该文提出了一种结合无触发词事件识别和基于阅读理解的事件论元角色分类的事件抽取方法。该方法首先采用无触发词方法实现事件识别;在事件识别结果的基础上,通过阅读理解方式实现对事件论元角色的分类。实验表明,该文提出的方法在不标注触发词情况下在警情领域数据中能更好地实现事件信息抽取。  相似文献   

11.
事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention, EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67...  相似文献   

12.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

13.
事件抽取旨在从海量的非结构化文本中自动提取出结构化描述信息,以帮助人们快速地了解事件的最新发展动态。传统的事件抽取方法主要采用分类或者序列标注的方法,其依赖于大量的标注数据来训练模型。近年来,研究者提出了利用机器阅读理解模型来进行事件抽取的方法,通过任务转换并联合利用机器阅读理解任务中的标注数据进行训练来缓解标注数据的不足。然而现有方法局限于单轮问答,问答对之间缺少依赖关系;此外,已有方法也未充分利用句子中的实体信息等知识。针对以上不足,提出了一种会话式机器阅读理解框架用于事件抽取,针对已有方法进行了两方面的扩展:首先,通过在句子中显式地增加实体标记信息,使得模型能够有效地学习到输入句子中的实体知识;其次,设计了历史会话信息编码模块,并结合注意力机制从历史会话中筛选出重要信息,融合到阅读理解模型中以辅助推断。最后,在公开数据集上的实验结果表明所提模型相比已有方法取得了更优的结果。  相似文献   

14.
基于CRFs和跨事件的事件识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。  相似文献   

15.
事件抽取是信息抽取领域最具有挑战性的任务之一,也是知识图谱构建中的关键技术。事件抽取在阅读理解、文本摘要、问答系统等领域得到了广泛的应用。限定域事件抽取指的是系统所抽取的事件类型是预定义的,因此针对某一特定领域,限定域事件抽取的研究更具有研究价值,而且中文事件抽取由于中文语言特性问题,面临着较大挑战。介绍了中文事件抽取中面对的挑战,对限定域中文事件抽取的主要方法进行归纳总结,重点介绍了基于深度学习的方法,并总结了少样本情况下的事件抽取方法,介绍了中文事件抽取常用的数据集,展望了中文事件抽取未来的发展趋势。  相似文献   

16.
近年来,基于知识图谱的问答系统逐渐成为学术界和工业界的研究和应用热点方向,而传统方法通常存在效率不高以及未充分利用数据信息的问题。针对以上问题,本文将中文知识图谱问答分为实体抽取和属性选择2个子任务,采用双向长短期记忆条件随机场(Bi-LSTM-CRF)模型来进行实体识别,并提出一种多粒度特征表示的属性选择模型。该模型采用字符级别以及词级别分别对问句和属性进行嵌入表示并通过编码器进行编码,对于属性同时还引入热度编码的信息。通过不同粒度文本表示的结合,并对问句和属性进行相似度计算,最终该系统在NLPCC-ICCPOL 2016 KBQA数据集上取得了73.96%的F1值,能够较好地完成知识图谱问答任务。  相似文献   

17.
事件抽取是信息抽取领域的重点研究方向.为了提升事件抽取效果,解决通用事件抽取方法无法充分利用文本特征信息的问题,提出了融合触发词特征的事件抽取方法.通过构建远程触发词库,为事件类型分类模型提供额外特征信息,增强事件触发词的发掘能力,再融合事件类型与触发词距离特征,提升事件要素抽取模型的表示学习能力,最后,将事件类型分类模型与事件要素抽取模型串联,提升事件抽取效果.在DuEE数据集上进行实验,与其他模型相比,本模型提升了准确率、召回率、F1值,证明了本模型的有效性.  相似文献   

18.
事件同指消解是自然语言处理中一个具有挑战性的任务,它在事件抽取、问答系统和阅读理解中具有重要作用。针对事件的语义信息主要由触发词和论元表示这一个特点,该文将事件进行结构化表示并输入一个基于门控和注意力机制的模型GAN-SR(gated attention network with structured representation),在文档内进行中文事件同指消解。首先,该模型采用语义角色标注和依存句法分析技术对事件句进行浅层语义分析,抽取事件句信息并表示为一个事件五元组。其次,将各种事件信息输入GRU进行编码,然后使用多头注意力机制挖掘事件句和事件对之间的重要特征。在ACE2005中文语料库上的实验表明,GAN-SR的性能优于目前性能最好的基准系统。  相似文献   

19.
传统的分步骤事件抽取方法中,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。文中为解决事件类型识别对元素识别的后向依赖问题,将事件抽取看作序列标注,构建一个改进的条件随机域联合标注模型,将事件类型和事件元素在图模型中同时进行标注。同时,通过触发词嵌入试图解决事件抽取中的数据不平衡问题。ACE 2005中文语料上的实验表明,基于该模型的方法提高了事件类型识别的性能,最终F值达到63。53%。  相似文献   

20.
触发词的识别在事件检测任务中起着至关重要的作用。目前没有越南语触发词标记语料,而中文触发词标记语料较为丰富,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,该文提出一种基于中文触发词指导的越南语新闻事件检测方法。首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后将映射后的中文触发词嵌入指导模型识别越南语新闻中的触发词信息,最后进行事件类型的分类。通过在越南语新闻事件检测的实验结果表明,在中文触发词指导下的越南语新闻事件检测取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号