首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
陈佳沣  滕冲 《计算机应用》2019,39(7):1918-1924
针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题,提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。首先,句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型;然后,实体关系联合抽取模块采用序列标注方法对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子;最后,句子选择器模块和实体关系联合抽取模块同时训练,将句子选择与序列标注一起优化。实验结果表明,该模型在实体关系联合抽取中的F1值为47.3%,与CoType为代表的联合抽取模型相比,所提模型的F1值提升了1%;与LINE为代表的串行模型相比,所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值,其中句子选择器能有效地处理数据的噪声。  相似文献   

2.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

3.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

4.
实体关系联合抽取的作用是从特定文本中识别出实体和对应关系,同时它也是知识图谱构建和更新的基础。目前的联合抽取方法在追求性能的同时都忽略了抽取过程中的信息冗余。针对此问题,提出基于潜在关系的实体关系联合抽取模型,通过设计一种新的解码方式来减少预测过程中关系、实体和三元组的冗余信息,从整体上分为提取潜在实体对、解码关系两步来完成从句子中抽取三元组的任务。首先通过潜在实体对提取器预测实体间是否存在潜在关系,同时筛选出置信度高的实体对作为最终的潜在实体对;其次将关系解码视作多标签二分类任务,通过关系解码器预测每个潜在实体对之间全部关系的置信度;最后通过置信度确定关系数量和类型,以完成三元组的抽取任务。在两个通用数据集上的实验结果表明,所提模型相比基线模型在准确率和F1指标上的效果更好,验证了所提模型的有效性,消融实验也证明了模型内部各部分的有效性。  相似文献   

5.
针对目前远程监督关系抽取任务中存在的错误标注问题,提出使用强化学习策略设计噪声指示器,通过与由关系分类器和噪声数据组成的环境相交互,动态识别每个关系类别的假正例与假负例,并为其重新分配正确的关系标签,从而将噪声数据转换成有用的训练样本,有利于提高远程监督关系抽取模型的性能;另外,在训练过程中,通过在策略网络权重上添加噪声,平衡策略网络的探索和利用问题,从而增强噪声指示器的探索能力,使噪声指示器更准确地选择出能够正确表达实体-关系的句子。在Freebase对齐NYT公共数据集上的实验结果表明,提出的方法可以显著提高远程监督关系抽取模型的性能,表明模型拥有识别并纠正噪声数据标签的能力,可以更好地学习关系特征。  相似文献   

6.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

7.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

8.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

9.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

10.
为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用RoBERTa(robustly optimized BERT approach)和Bi-LSTM(bi-directional long short-term memory)对文本进行编码,对上下文信息进行建模后,通过CRF(conditional random fields)识别实体,利用LSTM(long short term memory)进行关系分类。在中文数据集DuIE上进行消融实验和对比实验,此模型的F1指标达到77.1%,精确率高达78.3%,两项指标比当前主流模型FETI分别提高了1.3%和2.6%,实验结果验证了该模型的优势。  相似文献   

11.
深度学习实体关系抽取研究综述   总被引:3,自引:0,他引:3  
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.目前,基于深度学习的实体关系抽取技术,在特征提取的深度和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法.围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.  相似文献   

12.
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难。针对这些问题,提出多头注意力机制(multi-heads attention mechanism,Multi-Attention)与字词融合的中文命名实体识别模型(CWA-CNER)。将汉语文本字向量与其在句中可能成词的词向量进行拼接,并将其送入长短时记忆网络(bidirectional long short-term memory neural network,BiLSTM)提取上下文语义信息,进而利用多头注意力机制捕获句中元素间联系的紧密程度,最后通过条件随机场(conditional random field,CRF)进行实体标注。该模型在Boson数据集,1998和2014年《人民日报》三种语料上进行实验,其F1值均达到90%以上,结果表明了模型的有效性。  相似文献   

13.
针对现有的中文开放领域知识库问答系统缺乏对多关系问答的支持,将知识库问答过程分为实体识别、实体关系抽取和答案检索三个步骤,重点讨论了实体关系抽取的实现方法。在实体关系抽取阶段,提出一种基于规则的关系词提取方法抽取问句中的关系词,然后将关系词与知识库中的谓词进行相似度计算,得到关系集合,结合实体识别的结果,将问句转换为具有语义信息的三元组形式。实验结果表明,该方法可以支持多关系问答,并且具有较高的平均F1分数。  相似文献   

14.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

15.
实体关系抽取作为信息抽取任务的重要组成之一,能够对更小粒度的信息进行语义分析,为更多任务提供数据支持。关系抽取发展至今,总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程,对每种模型进行分析和讨论;结合深度学习方法的最新动态,对实体关系抽取未来的研究方向和趋势进行展望。  相似文献   

16.
王景慧  卢玲 《计算机应用研究》2023,40(5):1410-1415+1440
中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络(LSTM)进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络(BiLSTM)解码得到实体关系三元组。该方法在SanWen、FinRE、DuIE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。  相似文献   

17.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号