首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到13条相似文献,搜索用时 163 毫秒
1.
薛露  宋威 《计算机应用》2020,40(6):1601-1606
针对远程监督数据集的关系抽取研究方法存在着大量标签噪声的问题,提出了一种作用于分层注意力机制关系抽取模型的动态标签方法。首先,提出了一种根据关系类别相似性生成动态标签的概念。由于相同的关系标签包含相似的特征信息,计算特征信息的关系类别相似性有助于生成与特征信息相对应的动态标签。其次,利用动态标签方法的评分函数来评价远程监督标签是否为噪声,以决定是否需要生成新的标签代替远程监督标签,通过调整远程监督标签来抑制标签噪声对模型的影响。最后,根据动态标签来更新分层注意力机制以关注有效实例,重新学习每个有效实例的重要性,进一步抽取关键的关系特征信息。实验结果表明,相较于原始的分层注意力机制关系抽取模型,所提方法在Micro和Macro分数上分别有1.3个百分点和1.9个百分点的提升,实现了噪声标签的动态纠正,提升了模型的关系抽取能力。  相似文献   

2.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

3.
在实体关系抽取任务中,通常采用远程监督(distant supervision,DS)数据集,远程监督方法能通过大规模语料库自动标注数据来扩张数据集,但这无疑会使数据集充满大量的噪声。为此,该文将深度残差网络(deep residual network,ResNet)应用到关系提取的远程监督数据集上,通过加深网络层数来提高模型降噪能力。同时,提出了Gate模块,有效提高了深度残差网络的性能。该模块可以学习到每个特征通道的重要性,通过权重增强或抑制各个特征通道的比重,从而防止过拟合。另外,为了进一步解决数据集降噪问题,还提出了一种双池化层的池化层新方案。实验结果表明所提方法相比于目前效果较好的PCNN+ATT模型,在准确率和召回率上都有3%左右的提升。  相似文献   

4.
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

5.
相比于传统有监督的中文关系抽取方法,基于远程监督的方法可极大地避免训练语料匮乏的问题,因此得到了广泛关注。然而,远程监督方法的性能却严重受困于构建语料过程中引入的错误标签,因此为缓解噪声数据所带来的影响,提出一种基于双重注意力机制的关系抽取模型。该模型可通过双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制关注实例中重要的语义特征,同时在多个实例间引入实例级注意力机制计算实例与对应关系的相关性,以降低噪声数据的权重。在基于互动百科构建的中文人物关系抽取语料上的实验结果表明,该模型相比于单注意力机制模型可有效利用实例中所包含的语义信息并降低错误标签实例的影响,获取更高的准确率。  相似文献   

6.
针对传统基于远程监督的关系抽取方法中存在噪声和负例数据利用不足的问题,提出结合从句级远程监督和半监督集成学习的关系抽取方法.首先通过远程监督构建关系实例集,使用基于从句识别的去噪算法去除关系实例集中的噪声.然后抽取关系实例的词法特征并转化为分布式表征向量,构建特征数据集.最后选择特征数据集中所有正例数据和部分负例数据组成标注数据集,其余的负例数据组成未标注数据集,通过改进的半监督集成学习算法训练关系分类器.实验表明,相比基线方法,文中方法可以获得更高的分类准确率和召回率.  相似文献   

7.
在远程监督(Distant Supervision,DS)实体关系抽取任务中,采用远程监督的方式虽然可以产生大量的标注数据,但是这种方法产生的数据集充满大量的噪声数据,从而会降低关系抽取的性能.为此,我们针对现有深度学习使用浅层和单一深层神经网络模型提取特征的局限,设计了一个融合注意力机制的密集连接卷积神经网络模型——DenseCNN-ATT,该模型采用五层卷积深度的CNN,构成密集连接卷积模块作为句子编码器,通过增加特征通道数量来提高特征传递,减少了特征梯度的消失现象;此外,为进一步减少噪声影响,论文将网络的最大池化结果融合注意力机制,通过强调句子权重,来提升关系抽取性能.该模型在NYT数据集上的平均准确率达到了83.2%,相比于目前效果较好的浅层网络PCNN+ATT和深层网络ResCNN-9提升了9%~11%.实验证明,该模型能够充分利用有效的实例关系,在综合性能上明显优于目前效果较好的主流模型.  相似文献   

8.
远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上.但是由于远程监督构建语料的方式,带来了噪声标签和长尾分布两大问题.本文提出了一种新颖的远程监督关系抽取模型架构,与以往的基于管道的训练形式不同,除了句子编码器模块,新添加了外部知识增强模块.通过对知识库中已存在的实体类型与关系进行预处理和编码,为模型提供句包文本所没有的外部知识.有利于缓解数据集中存在部分长尾关系示例不足所导致的信息不足的问题,以及提升了模型对噪声示例的判别能力.通过在基准数据集NYT和GDS上的大量实验,相较于主流最优模型在AUC值上分别提升了0.9%和5.7%,证明了外部知识增强模块的有效性.  相似文献   

9.
叶育鑫  薛环  王璐  欧阳丹彤 《软件学报》2020,31(4):1025-1038
远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出“最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果”这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率.  相似文献   

10.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

11.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

12.
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力.  相似文献   

13.
陈佳沣  滕冲 《计算机应用》2019,39(7):1918-1924
针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题,提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。首先,句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型;然后,实体关系联合抽取模块采用序列标注方法对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子;最后,句子选择器模块和实体关系联合抽取模块同时训练,将句子选择与序列标注一起优化。实验结果表明,该模型在实体关系联合抽取中的F1值为47.3%,与CoType为代表的联合抽取模型相比,所提模型的F1值提升了1%;与LINE为代表的串行模型相比,所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值,其中句子选择器能有效地处理数据的噪声。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号