首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 71 毫秒
1.
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力.  相似文献   

2.
远监督关系抽取算法能够自动将关系库中的关系与无标注的文本对齐,以进行文本中的关系抽取。目前提出的远监督关系抽取算法中,大多数是基于特征的。然而,此类算法在将实例转换为特征时,经常会出现关键信息不突出、数据集线性不可分等问题,影响关系抽取的效果。该文提出了一种基于模式的远监督关系抽取算法,其中引入了基于模式的向量,并使用了基于核的机器学习算法来克服上述问题。实验结果表明,该文提出的基于模式的远监督关系抽取算法,能够有效地提升远监督关系抽取的准确率。  相似文献   

3.
基于图的半监督关系抽取   总被引:5,自引:1,他引:5  
陈锦秀  姬东鸿 《软件学报》2008,19(11):2843-2852
提出利用基于图的半监督学习算法,即标注传递算法,指导计算机从非结构化的文本中自动识别出实体之间的关系.该方法首先利用图策略来建立关系抽取的模型.在这个图模型中,各个有标签和未标签的样本被表示成图上的各个节点,而样本间的距离则作为图上各边的权重.然后,关系抽取的任务就转化成在这个图上估计出一个满足全局一致性假设的标注函数通过对ACE(automatic content extraction)语料库的评测,结果显示,当只有少量的标签样本时,采用该标注传递的方法可以获得比基于SVM(support vector machine)的有监督关系抽取更好的性能,同时也明显优于基于Bootstrapping的半监督关系抽取的方法.  相似文献   

4.
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。  相似文献   

5.
基于卷积神经网络的中文医疗弱监督关系抽取   总被引:1,自引:0,他引:1  
随着医疗领域受到越来越多的关注,自然语言处理的理论和应用逐渐拓展到该领域,其中信息抽取技术在该领域的应用成为研究热点。针对信息抽取技术在医疗领域实体关系抽取中的应用,提出一种基于卷积神经网络的弱监督关系抽取方法。该方法通过添加人工规则使训练语料带有实体关系标签,然后将该弱关系训练语料转换为向量特征矩阵,并输入到卷积神经网络进行分类模型训练,最终实现实体关系抽取。实验结果表明,该方法比常规机器学习方法更加准确高效。  相似文献   

6.
密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于密集连接方式的深度卷积神经网络模型。该模型采用五层卷积神经网络构成的密集连接模块和最大池化层作为句子编码器,通过合并不同层次的词法、句法和语义特征,来帮助网络学习特征,从而获取输入语句更丰富的语义信息,同时减轻深度神经网络的梯度消失现象,使得网络对自然语言的表征能力更强。模型在NYT-Freebase数据集上的平均准确率达到了82.5%,PR曲线面积达到了0.43。实验结果表明,该模型能够有效利用特征,并提高远程监督关系抽取的准确率。  相似文献   

7.
关系抽取是信息抽取的主要任务之一,远程监督作为关系抽取中的一种有效的方法,已成功地应用于包含上千关系的大型语料库.然而,远程监督造成的错误标注会影响关系抽取的性能.为了缓解这一问题,现有的远程监督关系抽取方法选择每个实体对中一个最好的句子或通过注意力机制赋予每个句子不同的权重.但这些方法并不能完全解决错误标注的问题.本...  相似文献   

8.
在远程监督人物关系抽取算法中,训练集的构造是利用知识库对齐自由文本的方式完成的。这一过程会产生部分共现句无法表达当前实体对关系的情况。分析此问题产生的原因,结合词法、句法两个方面,提出一种利用句子模式聚类及模式评分对远程监督人物关系抽取过程训练集进行去噪的方法。该方法首先利用词向量生成特定关系描述候选词,其次针对关系描述候选词提取句子模式并进行模式聚类,最后对模式聚类结果进行评分。通过筛选评分较低模式对应句子去掉对关系描述能力不强甚至无法描述关系的句子,得到过滤后的训练集。实验证明,利用该方法对不同语料库进行远程监督原始训练集句子过滤能够在保证召回率的情况下取得3%~5%准确率提升。  相似文献   

9.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深...  相似文献   

10.
远程监督可以为关系抽取任务自动构建数据集,缓解了人工构建数据集的压力和成本,为自动关系抽取的实现奠定基础,然而使用远程监督方法构建的数据集存在错误标注以及长尾问题,严重影响关系抽取性能.目前,远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来,随着深度学习技术的发展,这两个领域的研究...  相似文献   

11.
针对目前远程监督关系抽取任务中存在的错误标注问题,提出使用强化学习策略设计噪声指示器,通过与由关系分类器和噪声数据组成的环境相交互,动态识别每个关系类别的假正例与假负例,并为其重新分配正确的关系标签,从而将噪声数据转换成有用的训练样本,有利于提高远程监督关系抽取模型的性能;另外,在训练过程中,通过在策略网络权重上添加噪声,平衡策略网络的探索和利用问题,从而增强噪声指示器的探索能力,使噪声指示器更准确地选择出能够正确表达实体-关系的句子。在Freebase对齐NYT公共数据集上的实验结果表明,提出的方法可以显著提高远程监督关系抽取模型的性能,表明模型拥有识别并纠正噪声数据标签的能力,可以更好地学习关系特征。  相似文献   

12.
采用多尺度注意力机制的远程监督关系抽取   总被引:1,自引:0,他引:1  
针对目前大多数关系抽取模型中局部特征及全局特征利用不充分的缺点,该文提出一种采用多尺度注意力机制的远程监督关系抽取模型。在词语层面,通过在池化层构建权重矩阵来衡量词语与关系的相关程度,从而捕捉句子中重要的语义特征;在句子层面,采用注意力机制将预测关系与句子进行相关性比较,获得句子级别的重要信息。模型在NYT数据集上平均准确率达到78%,表明该模型能够有效地利用多尺度特征,并且提高远程关系抽取任务的准确率。  相似文献   

13.
在实体关系抽取任务中,通常采用远程监督(distant supervision,DS)数据集,远程监督方法能通过大规模语料库自动标注数据来扩张数据集,但这无疑会使数据集充满大量的噪声。为此,该文将深度残差网络(deep residual network,ResNet)应用到关系提取的远程监督数据集上,通过加深网络层数来提高模型降噪能力。同时,提出了Gate模块,有效提高了深度残差网络的性能。该模块可以学习到每个特征通道的重要性,通过权重增强或抑制各个特征通道的比重,从而防止过拟合。另外,为了进一步解决数据集降噪问题,还提出了一种双池化层的池化层新方案。实验结果表明所提方法相比于目前效果较好的PCNN+ATT模型,在准确率和召回率上都有3%左右的提升。  相似文献   

14.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

15.
相比于传统有监督的中文关系抽取方法,基于远程监督的方法可极大地避免训练语料匮乏的问题,因此得到了广泛关注。然而,远程监督方法的性能却严重受困于构建语料过程中引入的错误标签,因此为缓解噪声数据所带来的影响,提出一种基于双重注意力机制的关系抽取模型。该模型可通过双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制关注实例中重要的语义特征,同时在多个实例间引入实例级注意力机制计算实例与对应关系的相关性,以降低噪声数据的权重。在基于互动百科构建的中文人物关系抽取语料上的实验结果表明,该模型相比于单注意力机制模型可有效利用实例中所包含的语义信息并降低错误标签实例的影响,获取更高的准确率。  相似文献   

16.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号