首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上.但是由于远程监督构建语料的方式,带来了噪声标签和长尾分布两大问题.本文提出了一种新颖的远程监督关系抽取模型架构,与以往的基于管道的训练形式不同,除了句子编码器模块,新添加了外部知识增强模块.通过对知识库中已存在的实体类型与关系进行预处理和编码,为模型提供句包文本所没有的外部知识.有利于缓解数据集中存在部分长尾关系示例不足所导致的信息不足的问题,以及提升了模型对噪声示例的判别能力.通过在基准数据集NYT和GDS上的大量实验,相较于主流最优模型在AUC值上分别提升了0.9%和5.7%,证明了外部知识增强模块的有效性.  相似文献   

2.
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。  相似文献   

3.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

4.
《计算机科学与探索》2016,(9):1310-1319
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。传统的实体关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关系。然后使用远程监督学习方法从无结构的文本中抽取实体关系,通过多次迭代获得最终的实体关系。实验结果证明了该方法的有效性。  相似文献   

5.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

6.
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数...  相似文献   

7.
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声.针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系.对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果.在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实验结果表明,所提方法得到的结果具有较好的F1值,并且能识别远程监督数据测试集标签所没标注出的人物关系.  相似文献   

8.
为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模型CSSEM (Chinese syntactic structure extraction model).给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏实体标注语料的问题;基于少量标注语料自动学习关系抽取模式,使用基于句法结构的抽取模式从非结构化文本中开放式地抽取三元组.基于AUC (area under curve)评价标准,CSSEM与其它方法在地质领域和通用领域的数据集上进行对比分析.分析结果表明,该模型在上述两个领域取得了更好的准确率和召回率.  相似文献   

9.
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。  相似文献   

10.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

11.
实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。  相似文献   

12.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

13.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

14.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

15.
江旭  钱雪忠  宋威 《计算机工程》2022,48(10):110-115+122
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

16.
从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。  相似文献   

17.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深度学习的方法处理远程监督关系抽取的问题,首先介绍了远程监督关系抽取的相关理论;然后从数据处理的角度分别对错误标注、长尾类数据和关系重叠这三类问题的处理方法进行了阐述,并对相关算法的特点进行分析;最后总结和提出了远程监督关系抽取的未来发展趋势.  相似文献   

18.
基于自监督学习的维基百科家庭关系抽取   总被引:1,自引:0,他引:1  
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息--家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。  相似文献   

19.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

20.
事件抽取旨在从海量的非结构化文本中自动提取出结构化描述信息,以帮助人们快速地了解事件的最新发展动态。传统的事件抽取方法主要采用分类或者序列标注的方法,其依赖于大量的标注数据来训练模型。近年来,研究者提出了利用机器阅读理解模型来进行事件抽取的方法,通过任务转换并联合利用机器阅读理解任务中的标注数据进行训练来缓解标注数据的不足。然而现有方法局限于单轮问答,问答对之间缺少依赖关系;此外,已有方法也未充分利用句子中的实体信息等知识。针对以上不足,提出了一种会话式机器阅读理解框架用于事件抽取,针对已有方法进行了两方面的扩展:首先,通过在句子中显式地增加实体标记信息,使得模型能够有效地学习到输入句子中的实体知识;其次,设计了历史会话信息编码模块,并结合注意力机制从历史会话中筛选出重要信息,融合到阅读理解模型中以辅助推断。最后,在公开数据集上的实验结果表明所提模型相比已有方法取得了更优的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号