首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

2.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

3.
当前广为研究的在单个句子范围内的事件抽取方法,难以扩展到从分布在一篇文章里的多个句子中抽取同一事件的完整论元.对此,提出了一种基于深度学习的文档级事件抽取联合模型.首先,利用基于多头自注意力机制的实体识别模块逐句识别文档中的实体并输出其类型.然后,通过定义不同论元角色对事件类型的重要度训练事件类型检测模块,实现在无触发词条件下定位事件表述中心句并判断事件类型.最后,事件论元抽取模块通过在实体语义向量中嵌入实体的类型信息和实体到事件中心句的距离信息,并输入Transformer网络与上下文交换信息,实现在文档范围内抽取全部事件论元.通过对上述三个子模块进行联合训练,进一步实现了端到端的事件抽取,避免了管道式方法的误差传递.在公开数据集上的实验结果表明:在单事件条件下,该模型取得了86.3%的F1值,优于当前最佳的文档级事件抽取方法,并且具有优秀的模型训练速度.  相似文献   

4.
肖升  何炎祥 《计算机科学》2012,39(5):161-164,176
为将动词与其论元间的约束规则应用于事件抽取,在事件模型中引入动词论元结构形成模型变体,围绕模型变体提出基于动词论元结构的中文事件抽取方法。此方法首先对待抽取文本进行预处理和句法分析,得出其语法结构;然后将所得结构与动词论元结构属性进行比较,找出每个动词支配的论元;最后利用论元的语义属性确定与之对应的事件特征并由此完成事件抽取。实验结果显示,此方法能有效提高抽取系统的性能和效率。  相似文献   

5.
中文是一种话题结构的语言,其表达方式比较灵活,但句法结构不如英文严谨,导致了事件中论元与触发词的关系较松散。现有的论元抽取方法多数是基于浅层语义的句法结构特征,从而造成了论元抽取性能低下。为了解决这个问题,提出了基于语义的中文事件论元抽取方法。该方法利用角色、实体和触发词的语义,弥补了论元抽取中单纯采用句法特征的缺陷。在ACE2005中文语料上的测试结果表明,该方法与基准系统相比具有更高的性能。  相似文献   

6.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

7.
基于句法语义依存分析的中文金融事件抽取   总被引:2,自引:0,他引:2  
事件抽取在自然语言处理应用中扮演着重要的角色,如股票市场趋势预测.传统事件抽取较为关注触发词和论元所属类型的正确性,较少地结合应用需求去分析研究事件抽取效果及使用价值.在财经领域,事件作用对象及动作是关注的重点.因此,本文聚焦于金融事件,抽取三元组事件ET(Sub,Pred,Obj).在中文财经新闻中,存在大量事件嵌套...  相似文献   

8.
当前,突发热点事件的传播日益迅猛与广泛.如何通过事件抽取准确快速地抽取出事件触发词及其事件元素,有助于决策者分析舆情态势、引导社会舆论.针对现有事件抽取方法多是从单个句子中抽取事件元素,而突发热点事件的事件元素往往分布在多个句子当中的问题,提出了一种基于图注意力网络的突发热点事件联合抽取方法,该方法分为三个阶段:基于TextRank的事件句抽取、基于图注意力网络的篇章级事件联合抽取、突发热点事件补全.在抽取出新闻主旨事件以后对整篇新闻做事件抽取,利用候选事件与新闻主旨事件的事件向量相似度以及事件论元相似度对该新闻主旨事件进行补全.实验结果表明,该方法在DUEE1.0数据集上进行触发词抽取和论元角色抽取任务时的F1指标分别达到83.2%、59.1%;在中文突发事件语料库上进行触发词抽取和论元角色抽取任务时的F1指标分别达到82.7%、58.7%,验证了模型的合理性和有效性.  相似文献   

9.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

10.
余杰  纪斌  刘磊  李莎莎  马俊  刘慧君 《计算机科学》2021,48(11):287-293
临床病历电子化的推广普及使得利用自动化的方法从病历中快速抽取高价值的信息成为可能.作为一种重要的医学信息,肿瘤医疗事件由描述恶性肿瘤的一系列属性构成.近年来,肿瘤医疗事件抽取已成为学术界的一个研究热点,众多学术会议将其发布为评测任务,并提供了一系列高质量的标注数据.针对肿瘤医疗事件属性离散的特点,文中提出了一种中文医疗事件的联合抽取方法,实现了肿瘤原发部位和原发肿瘤大小两种属性的联合抽取和肿瘤转移部位的抽取.此外,针对肿瘤医疗事件标注文本的数量和类型少的问题,提出了一种基于关键信息全域随机替换的伪数据生成算法,提升了联合抽取方法对不同类型肿瘤医疗事件抽取的迁移学习能力.所提方法获得了 CCKS2020中文电子病历临床医疗事件抽取评测任务的第三名,在CCKS2019和CCKS2020数据集上的大量实验验证了所提方法的有效性.  相似文献   

11.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

12.
中文事件抽取技术研究   总被引:13,自引:3,他引:13  
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。  相似文献   

13.
在信息抽取越来越重要的今天,作为其重要研究方向,事件抽取也备受关注。选择了基于事件实例的方式,提出在对事件非事件句子分类的基础上,进行事件关键元素提取的研究。在句子分类上抓取句子特征进行分类,随后对包含事件句子中词进行特征抓取分类,选出特定事件元素。选取了SVM多元分类算法,并取得了一定成果。  相似文献   

14.
贺瑞芳  段绍杨 《软件学报》2019,30(4):1015-1030
事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性.  相似文献   

15.
事件抽取是信息抽取领域的重点研究方向.为了提升事件抽取效果,解决通用事件抽取方法无法充分利用文本特征信息的问题,提出了融合触发词特征的事件抽取方法.通过构建远程触发词库,为事件类型分类模型提供额外特征信息,增强事件触发词的发掘能力,再融合事件类型与触发词距离特征,提升事件要素抽取模型的表示学习能力,最后,将事件类型分类模型与事件要素抽取模型串联,提升事件抽取效果.在DuEE数据集上进行实验,与其他模型相比,本模型提升了准确率、召回率、F1值,证明了本模型的有效性.  相似文献   

16.
事件抽取是构建知识图谱的关键任务之一,也是当前自然语言处理的研究热点和难点问题。事件抽取研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息,对人们认知世界有着深远的意义,在信息检索、智能问答、情感分析等应用场景有着重要的意义和价值。在公开国际测评和语料的推动下,事件抽取研究受到越来越多的学者关注,取得了许多的研究成果。按照事件抽取任务定义,有预先定义结构化的事件表示框架的框架表示事件抽取和通过事件实例中触发词及事件元素进行聚类的实例表示事件抽取。根据事件抽取方法的不同,可以分为基于模式匹配的方法和基于机器学习的方法两大类,中文事件抽取方法还要考虑中文语言特性问题。文中全面介绍了中文事件抽取的任务和方法,并总结展望了未来的发展趋势。  相似文献   

17.
目前先进的事件论元抽取方法通常使用BERT模型作为编码器,但BERT巨大的参数量会降低效率,使模型无法在计算资源有限的设备中运行。提出一种新的事件论元抽取方法,将事件论元抽取教师模型蒸馏到2个不同的学生模型中,再对2个学生模型进行集成。构造使用BERT模型和图卷积神经网络的事件论元抽取教师模型,以及2个分别使用单层卷积神经网络和单层长短期记忆网络的学生模型。先通过均方误差损失函数对学生模型和教师模型的中间层向量进行知识蒸馏,再对分类层进行知识蒸馏,使用均方误差损失函数和交叉熵损失函数让学生模型学习教师模型分类层的知识和真实标签的知识。在此基础上,利用加权平均的方法对2个学生模型进行集成,从而提升事件论元抽取性能。使用ACE2005英文数据集进行实验,结果表明,与学生模型相比,该方法可使事件论元抽取F1值平均提升5.05个百分点,推理时间和参数量较教师模型减少90.85%和99.25%。  相似文献   

18.
传统的事件论元抽取方法把任务当作句子中实体提及的多分类或序列标注任务,论元角色的类别在这些方法中只能作为向量表示,而忽略了论元角色的先验信息。实际上,论元角色的语义和论元本身有很大关系。对此,该文提议将其当作机器阅读理解任务,把论元角色转换为自然语言描述的问题,通过在上下文中回答这些问题来抽取论元。该方法更好地利用了论元角色类别的先验信息,在ACE2005中文语料上的实验证明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号