首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

2.
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。  相似文献   

3.
针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。  相似文献   

4.
句子级别细粒度的事件检测任务旨在对触发词进行识别与分类。针对现有事件检测方法中存在的过度平滑及缺乏依存类型信息的问题,提出了一种基于图卷积网络融合依存信息的事件检测方法。该模型首先使用双向长短期记忆网络对句子进行编码,同时根据依存分析构建多阶句法图和依存句法图;然后利用图卷积网络融合句子的依存信息,从而有效地利用多跳信息和依存标签信息。在自动文本抽取数据集上进行实验,在触发词识别和分类这两个子任务中分别取得了81.7%和78.6%的F1值。结果显示,提出的方法能更加有效地捕获句子中的事件信息,提升了事件检测的效果。  相似文献   

5.
传统中文事件检测方法采用人工定义的特征表示候选触发词,耗时耗力。基于神经网络的特征学习方法在中英文事件检测任务中得到了验证。现有的基于神经网络的中文事件检测方法初步探索了字信息对解决分词错误的作用。字是中文的最小结构单元和语义表示单元。词语的字符级信息能够提供词语的结构性信息和辅助词语级语义。该文研究了字/词混合神经网络特征对于解决中文事件数据集未登录词问题的作用。采用神经网络模型分别学习词语的词语级表示和字符级表示,进而拼接得到词语的混合表示。实验结果表明,基于字/词混合表示的中文神经网络事件检测模型的F1值比当前最好的模型高2.5%。  相似文献   

6.
当前基于深度学习的事件检测模型都依赖足够数量的标注数据,而标注数据的稀缺及事件类型歧义为越南语事件检测带来了极大的挑战。根据“表达相同观点但语言不同的句子通常有相同或相似的语义成分”这一多语言一致性特征,该文提出了一种融入中文语义信息及越南语句法特征的越南语事件检测框架。首先通过共享编码器策略和交叉注意力网络将中文信息融入越南语中,然后使用图卷积网络融入越南语依存句法信息,最后在中文事件类型指导下实现越南语事件检测。实验结果表明,在中文语义信息和越南语句法特征的指导下越南语事件检测取得了较好的效果。  相似文献   

7.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

8.
事件论元抽取是事件抽取任务中一个极具挑战性的子任务.该任务旨在抽取事件中的论元及论元扮演的角色.研究发现,句子的语义特征和依存句法特征对事件论元抽取都有着非常重要的作用,现有的方法往往未考虑如何将两种特征有效地融合起来.因此,提出一种基于门控图卷积与动态依存池化的事件论元抽取模型.该方法使用BERT抽取出句子的语义特征;然后通过依存句法树设计两个相同的图卷积网络,抽取句子的依存句法特征,其中一个图卷积的输出会通过激活函数作为门控单元;接着,语义特征和依存句法特征通过门控单元后相加融合.此外,还设计了一个动态依存池化层对融合后的特征进行池化.在ACE2005数据集上的实验结果表明,该模型可以有效地提升事件论元抽取效果.  相似文献   

9.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

10.
事件抽取是自然语言处理中信息抽取的关键任务之一。事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。在ACE2005中文数据集上的实验表明,提出的中文事件检测模型与现有模型相比,准确率、召回率与F1值都有提升。  相似文献   

11.
基于CRFs和跨事件的事件识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。  相似文献   

12.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

13.
丁玲  向阳 《计算机科学》2021,48(5):202-208
事件检测是信息抽取领域中一个重要的研究方向,其主要研究如何从非结构化自然语言文本中提取出事件的触发词,并识别出事件的类型。现有的基于神经网络的方法通常将事件检测看作单词的分类问题,但是这会引起中文事件检测触发词与文本中词语不匹配的问题。此外,由于中文词语的一词多义性,在不同的语境下,相同的词语可能会存在歧义性问题。针对中文事件检测中的这两个问题,提出了一个分层次多粒度语义融合的中文事件检测模型。首先,该模型利用基于字符序列标注的方法解决了触发词不匹配的问题,同时设计了字符-词语融合门机制,以获取多种分词结果中词语的语义信息;然后,通过设计字符-句子融合门机制,考虑整个句子的语义信息,学习序列的字-词-句混合表示,消除词语的歧义性;最后,为了平衡“O”标签与其他标签之间的数量差异,采用了带有偏差的损失函数对模型进行训练。在广泛使用的ACE2005数据集上进行了大量实验,实验结果表明,所提模型在精确率(Precision,P)、召回率(Recall,R)和F1值这3个指标上比现有的中文事件检测模型至少高出3.9%,1.4%和2.9%,证明了所提方法的有效性。  相似文献   

14.
中文短文本通常使用单词序列而非字符序列进行语义匹配,以获得更好的语义匹配性能。然而,中文分词可能是错误或模糊的,容易引入噪声或者错误传播,从而损害模型的匹配性能。此外,多数中文词汇具有一词多义的特点,短文本由于缺少上下文环境,相比一词多义的长文本更难理解,这对于模型正确捕获语义信息是一个更大的挑战。提出一种短文本匹配模型,使用词格长短期记忆网络(Lattice LSTM)融合字符和字符序列的多粒度信息。引入外部知识HowNet解决多义词的问题,使用软注意力机制获取2个句子间的交互信息,并利用均值池化和最大池化算法进一步提取句子的特征信息,获取句子级语义编码表示。在数据集LCQMC和BQ上的实验结果表明,与ESIM、BIMPM和Lattice-CNN模型相比,该模型能有效提升中文短文本语义匹配的准确率。  相似文献   

15.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

16.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

17.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

18.
服务类网站的用户评价是消费者选择的重要参考,受商业利益的驱使,点评网站上充斥着大量不符合产品真实特性的评论,虚假评论的检测与治理,对于监督网站运营,净化网络环境具有重要的意义.为了提升虚假评论的检测结果,在基于词和文档构建的图神经网络进行文本分类的基础上,提出基于融合语义相似度的图卷积网络(sematic-graph ...  相似文献   

19.
中文关系抽取采用基于字符或基于词的神经网络,现有的方法大多存在分词错误和歧义现象,会不可避免的引入大量冗余和噪音,从而影响关系抽取的结果.为了解决这一问题,本文提出了一种基于多粒度并结合语义信息的中文关系抽取模型.在该模型中,我们将词级别的信息合并进入字符级别的信息中,从而避免句子分割时产生错误;借助外部的语义信息对多义词进行建模,来减轻多义词所产生的歧义现象;并且采用字符级别和句子级别的双重注意力机制.实验表明,本文提出的模型能够有效提高中文关系抽取的准确率和召回率,与其他基线模型相比,具有更好的优越性和可解释性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号