首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

2.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

3.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%.  相似文献   

4.
中文事件触发词的自动抽取研究*   总被引:1,自引:0,他引:1  
随着自然语言处理领域中信息抽取技术的不断发展,越来越多的学者开始关注事件的识别和抽取研究,其中触发词的识别和抽取是事件识别和抽取的关键。针对目前中文触发词抽取结果的 F值不够理想的情况,选用中文事件语料库C EC语料作为训练语料和测试语料,提出了一种基于触发词扩展表和机器学习相结合的触发词抽取方法,实验表明,该方法抽取效果比较理想,F值可达到69.7%。  相似文献   

5.
当前广为研究的在单个句子范围内的事件抽取方法,难以扩展到从分布在一篇文章里的多个句子中抽取同一事件的完整论元.对此,提出了一种基于深度学习的文档级事件抽取联合模型.首先,利用基于多头自注意力机制的实体识别模块逐句识别文档中的实体并输出其类型.然后,通过定义不同论元角色对事件类型的重要度训练事件类型检测模块,实现在无触发词条件下定位事件表述中心句并判断事件类型.最后,事件论元抽取模块通过在实体语义向量中嵌入实体的类型信息和实体到事件中心句的距离信息,并输入Transformer网络与上下文交换信息,实现在文档范围内抽取全部事件论元.通过对上述三个子模块进行联合训练,进一步实现了端到端的事件抽取,避免了管道式方法的误差传递.在公开数据集上的实验结果表明:在单事件条件下,该模型取得了86.3%的F1值,优于当前最佳的文档级事件抽取方法,并且具有优秀的模型训练速度.  相似文献   

6.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

7.
基于混合模型的生物事件触发词检测   总被引:1,自引:0,他引:1  
语义歧义增加了生物事件触发词检测的难度,为了解决语义歧义带来的困难,提高生物事件触发词检测的性能,该文提出了一种基于丰富特征和组合不同类型学习器的混合模型。该方法通过组合支持向量机(SVM)分类器和随机森林(Random Forest)分类器,利用丰富的特征进行触发词检测,从而为每一个待检测词分配一个事件类型,达到检测触发词的目的。实验是在BioNLP2009共享任务提供的数据集上进行的,实验结果表明该方法有效可行。  相似文献   

8.
陈斌  周勇  刘兵 《计算机工程》2019,45(1):153-158
传统事件触发词抽取方法在特征提取过程中过分依赖自然语言处理工具,容易造成误差累积。为解决该问题,在卷积双向长短期记忆网络的基础上,提出一种事件触发词抽取方法。通过卷积操作提取单词上下文语境信息,同时利用长短期记忆网络保留句子级别特征,从而提高事件触发词的抽取性能。在ACE2005英文语料上的实验结果表明,该方法在事件触发词识别与分类阶段的F值达到69. 5%,具有较好的抽取性能。  相似文献   

9.
事件检测与分类是事件抽取的关键环节,触发词抽取是完成事件检测与分类的主流方法。提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词-实体描述对的方法来提高触发词抽取的召回率,然后将触发词-实体描述对抽取结果与单一触发词抽取结果相融合以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中取得较好效果,F值分别达到了69.0%和66.2%。  相似文献   

10.
传统利用语义和句法信息进行生物事件抽取的方法,在触发词抽取阶段句法信息运用形式单一笼统,不能有效发挥作用。为此,提出一种基于深层句法分析的触发词抽取方法。该方法采用间接的句法信息模式,利用深层句法信息独立地进行边检测,将边检测结果融合于触发词抽取中,使深层句法信息得到更有效的利用。在BioNLP2009与2011共享任务语料上进行实验,结果表明,该方法的,值达到68.8%和67.3%,具有较好的触发词抽取性能。  相似文献   

11.
马春明  李秀红  李哲  王惠茹  杨丹 《计算机应用》2022,42(10):2975-2989
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。  相似文献   

12.
基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。  相似文献   

13.
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。  相似文献   

14.
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。  相似文献   

15.
基于事件框架的主题事件融合研究*   总被引:1,自引:0,他引:1  
针对事件抽取获得的单个元事件无法完整描述主题事件的特点,提出了一种主题事件的融合方法,通过该方法将与同一主题相关的所有元事件整合在一起,以层次化的形式表示。首先定义了一种事件融合框架TEFF(topic event fusion framework)。该框架根据各类元事件在主题事件中的作用,将主题事件以层次化的形式表示。同时给出元事件和主题的相关度计算方法,通过该算法来评价元事件和主题的相关度。在TEFF的指导下,通过相关度计算,实现主题事件的融合。在以2008年起的金融危机为主题的实验中,取得了F值为7  相似文献   

16.
针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。  相似文献   

17.
生物医学事件触发词识别研究   总被引:1,自引:0,他引:1  
触发词的识别是生物医学事件抽取的一个关键步骤。传统的采用字典/规则的方法过于依赖字典或规则的建立,一般的机器学习方法则需设计复杂的特征,而且大多数系统采用串行的方法会导致错误的传播。因而采用了基于神经网络的事件触发词识别和事件类型判别联合结构预测模型,既简化人工干预,又减少错误传播。实验结果表明提出的方法取得了很好的性能,为生物事件的抽取奠定了可靠的基础。  相似文献   

18.
在当前互联网时代,大量新领域下的非结构文本数据中蕴含了海量信息.面向新领域的事件抽取方法研究能快速地构建领域知识库,用于支撑基于知识的下游应用.但现有事件抽取系统的领域限定性强,在新领域中从零构建会极度依赖事件体系和标注数据的质量及规模,需要大量人力和专家知识来定制模板和标注语料.而且数据集中常见在相同的上下文中出现多...  相似文献   

19.
Biomedical event extraction is one of the most significant and challenging tasks in biome- dical text information extraction, which has attracted more attentions in recent years. The two most important subtasks in biomedical event extraction are trigger recognition and argument detection. Most of the preceding methods consider trigger recognition as a classification task but ignore the sentence-level tag information. Therefore, a sequence labeling model based on bidirectional long short-term memory (Bi-LSTM) and conditional random field (CRF) is constructed for trigger recognition, which separately uses the static pre-trained word embedding combined with character-level word representation and the dynamic contextual word representation based on the pre-trained language model as model inputs. Meanwhile, for the event argument detection task, a self-attention based multi-classification model is proposed to make full use of the entity and entity type features. The F1-scores of trigger recognition and overall event extraction are 81.65% and 60.04% respectively, and the experimental results show that the proposed method is effective for biomedical event extraction.  相似文献   

20.
数学问题自动求解是人工智能领域的一项重要工作。以应用题自动求解为目标,以高考入学考试数学试卷中的分层抽样应用题为研究对象,重点研究了分层抽样应用题的句子语义角色识别方法。根据分层抽样的原理,首先定义了分层抽样题意表征中的五种核心语义角色,分别为:总体、样本、总体中的层、样本中的层和实体之间的关系。基于这五种语义角色,应用题题意理解中的核心问题被转换为对应用题文本中的句子进行语义角色判定。提出了一种基于特征词与n-gram模型相结合的句子语义角色判定方法,对分层抽样应用题文本中的句子进行语义角色判定。根据测试集中的实验结果,应用题的整题识别准确率由基于特征词的判定方法的17.95%提高到64.1%。实验结果说明基于特征词与n-gram模型相结合的句子语义角色判定方法能够提高题意理解的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号