首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
关系抽取是构建知识图谱的基础,而中文关系抽取也是关系抽取中的难点问题,现有的中文关系抽取大多采用基于字符特征或者词特征的方法,但是前者无法捕获字符上下文的信息而后者受制于分词质量,导致中文关系抽取的性能较低。针对该问题,提出了基于多层次语义感知的中文关系抽取模型,该模型利用实体间丰富的语义信息来提高实体对关系预测的性能。多层次语义感知体现在以下三个方面:首先,利用ERNIE预训练语言模型将文本信息转化为动态词向量;然后,利用注意力机制增强实体所在句子的语义表示,同时通过外部知识尽可能地消除实体词的中文歧义;最后,将包含多层语义感知的句子表示放入到分类中进行预测。实验结果表明,所提模型在中文关系抽取的性能上优于已有模型,且更具解释性。  相似文献   

2.
中文短文本通常使用单词序列而非字符序列进行语义匹配,以获得更好的语义匹配性能。然而,中文分词可能是错误或模糊的,容易引入噪声或者错误传播,从而损害模型的匹配性能。此外,多数中文词汇具有一词多义的特点,短文本由于缺少上下文环境,相比一词多义的长文本更难理解,这对于模型正确捕获语义信息是一个更大的挑战。提出一种短文本匹配模型,使用词格长短期记忆网络(Lattice LSTM)融合字符和字符序列的多粒度信息。引入外部知识HowNet解决多义词的问题,使用软注意力机制获取2个句子间的交互信息,并利用均值池化和最大池化算法进一步提取句子的特征信息,获取句子级语义编码表示。在数据集LCQMC和BQ上的实验结果表明,与ESIM、BIMPM和Lattice-CNN模型相比,该模型能有效提升中文短文本语义匹配的准确率。  相似文献   

3.
丁玲  向阳 《计算机科学》2021,48(5):202-208
事件检测是信息抽取领域中一个重要的研究方向,其主要研究如何从非结构化自然语言文本中提取出事件的触发词,并识别出事件的类型。现有的基于神经网络的方法通常将事件检测看作单词的分类问题,但是这会引起中文事件检测触发词与文本中词语不匹配的问题。此外,由于中文词语的一词多义性,在不同的语境下,相同的词语可能会存在歧义性问题。针对中文事件检测中的这两个问题,提出了一个分层次多粒度语义融合的中文事件检测模型。首先,该模型利用基于字符序列标注的方法解决了触发词不匹配的问题,同时设计了字符-词语融合门机制,以获取多种分词结果中词语的语义信息;然后,通过设计字符-句子融合门机制,考虑整个句子的语义信息,学习序列的字-词-句混合表示,消除词语的歧义性;最后,为了平衡"O"标签与其他标签之间的数量差异,采用了带有偏差的损失函数对模型进行训练。在广泛使用的ACE2005数据集上进行了大量实验,实验结果表明,所提模型在精确率(Precision, P)、召回率(Recall, R)和F1值这3个指标上比现有的中文事件检测模型至少高出3.9%,1.4%和2.9%,证明了所提方法的有效性。  相似文献   

4.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

5.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

6.
远程监督关系抽取是自然语言处理领域的重要任务之一.由于识别实体关系的任务是在句子级别进行的,注意力机制分配权重可能存在误差,且现有深度学习模型常采用卷积神经网络进行最终关系分类,并不能充分利用标记实体的位置信息.本文提出了一种结合注意力及胶囊网络的多通道关系抽取模型(BG-AMC),该模型首先通过双向GRU神经网络对句子词向量进行编码以获取句子的高维语义,接着利用注意力机制辅助生成句子的多通道表示,最后采用胶囊网络进行关系分类.多通道中的每个通道在递归传播时互不影响,可以使神经网络学习到同一句子的多种表示形式,以减轻句子歧义,胶囊网络可获取到句子实体的位置信息.实验表明,BG-AMC与其他基线模型对比能够提高远程监督关系抽取的效果.  相似文献   

7.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

8.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

9.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

10.
实体关系三元组的抽取效果直接影响后期知识图谱构建的质量,而传统流水线式和联合式抽取的模型,并没有对句子级别和关系级别的语义特征进行有效建模,从而导致模型性能的缺失。为此,提出一种融合句子级别和关系级别的交互注意力网络的实体和关系联合抽取模型RSIAN,该模型通过交互注意力网络来学习句子级别和关系级别的高阶语义关联,增强句子和关系之间的交互,辅助模型进行抽取决策。在构建的中文旅游数据集(TDDS)的Precision、Recall和F1值分别为0.872、0.760和0.812,其性能均优于其他对比模型;为了进一步验证该模型在英文联合抽取上的性能,在公开英文数据集NYT和Webnlg上进行实验,该模型的F1值相比基线模型RSAN模型分别提高了0.014和0.013,并且该模型在重叠三元组的分析实验也均取得了优于基线模型的性能且更稳定。  相似文献   

11.
针对中文关系抽取中分词时引起的边界切分出错而造成的歧义问题,以及出现实体对重叠不能提取出所涉及的多个关系问题,提出一种基于字词混合的联合抽取方法.首先,对于分词边界问题,嵌入层在词向量的基础上结合字向量,并且增加位置信息来保证字与字之间的正确顺序.其次,模型引入混合扩张卷积网络进行不同粒度、更远距离的特征提取.最后,采用分层标注方法,通过得到的主实体信息标记对应的关系和客实体,每个主实体可对应多个关系和客实体.与其他关系抽取方法在相同中文数据集上进行实验对比,实验结果表明,该方法的抽取效果最佳,并且也表现出更好的稳定性.  相似文献   

12.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

13.
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。  相似文献   

14.
针对民航突发事件领域本体关系抽取准确率低的问题,提出了一种结合注意力机制与双向门控循环单元(BiGRU)的关系抽取模型。首先查询预先训练的词向量矩阵,将文本中每个词语映射为向量表示;其次构建BiGRU,得到词语序列的上下文语义信息;然后在词语层面和句子层面分别引入注意力机制,为表达语义关系更重要的词语和句子分配更大的权重;最后进行模型的训练与优化。将该模型应用在民航突发事件领域本体的关系提取中,实验结果表明该模型相较于其他方法具有更好的提取效果,验证了该模型的有效性,为民航突发事件领域本体关系的自动获取提供了新的方法支持。  相似文献   

15.
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。  相似文献   

16.
伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量,但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。针对此问题,该文提出了一个双向长短期记忆网络加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为: 首先,对汉语和越南语句子进行编码,基于句子中单词语义表征的难易程度,自适应地进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征;然后,在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。实验结果表明,相比于基线模型,该文提出的方法在F1得分上提升5.09%,同时将提取到的句子对用于训练机器翻译模型,实验结果表明翻译性能的显著提升。  相似文献   

17.
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难.针对这些问题,提出多头注意力机制(multi-heads attention m...  相似文献   

18.
汉语文章中复句占多数, 复句关系类别的识别是对复句分句之间的语义关系的甄别, 是分析复句语义的关键. 在关系词非充盈态复句中, 部分关系词缺省, 因此, 不能通过关系词搭配的规则来对非充盈态复句进行类别识别, 且通过人工分析分句的特征进行类别识别费时费力. 本文以二句式非充盈态复句为研究对象, 采用在卷积神经网络中融合关系词特征的FCNN模型, 尽可能减少对语言学知识和语言规则的依赖, 通过学习自动分析两个分句之间语法语义等特征, 从而识别出复句的关系类别. 使用本文提出的方法对复句关系类别识别准确率达97%, 实验结果证明了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号