首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tri-training with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。  相似文献   

2.
基于自监督学习的维基百科家庭关系抽取   总被引:1,自引:0,他引:1  
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息--家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。  相似文献   

3.
谢德鹏  常青 《计算机应用研究》2020,37(7):1921-1924,1930
关系抽取发展至今,总体上可以分为基于规则的抽取方式和基于统计方式的抽取;之后出现的众多方法大多是以统计为主,辅助以规则;后来引入了包括远程监督、深度学习等模式并融合了注意力机制、多标签多实例方法。对关系抽取的发展过程和方向以及以上提到的方法进行介绍和总结。  相似文献   

4.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深...  相似文献   

5.
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。  相似文献   

6.
作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为必要。本文从实体关系抽取的产生和发展开始,对目前基于中文的实体关系抽取技术现状作了阐述;按照关系抽取方法对语料的依赖程度分为4类:有监督的实体关系抽取、无监督的实体关系抽取、半监督的实体关系抽取和开放域的实体关系抽取,并对这4类抽取方法进行具体的分析和比较;最后介绍深度学习在中文实体关系抽取上的应用成果和发展前景。  相似文献   

7.
为提高中文文本摘要抽取的准确性与应用于不同类型文本的有效性,论文结合MMR算法、TextRank算法、文本主题以及篇章结构信息,提出一种基于集成学习的无监督中文文本摘要自动抽取模型。使用每种抽取方法单独抽取关键句,然后采用投票机制对各方法抽取出的句子进行加权投票,对多种方法共同抽取出的句子赋予更高的权重。实验结果表明,该模型应对不同结构文本泛化能力更强,在抽取单句摘要时Rouge_1得分要高于最优的单一抽取算法得分,Rouge_2、Rouge_L得分接近最优结果;在抽取多句摘要时Rouge_1、Rouge_2、Rouge_L得分要高于其他单一方法,比最优的单一抽取算法分别提高了1.7个、1.3个、1.5个百分点,相比传统摘要抽取算法提取的摘要质量更高。  相似文献   

8.
基于图的半监督关系抽取   总被引:5,自引:1,他引:5  
陈锦秀  姬东鸿 《软件学报》2008,19(11):2843-2852
提出利用基于图的半监督学习算法,即标注传递算法,指导计算机从非结构化的文本中自动识别出实体之间的关系.该方法首先利用图策略来建立关系抽取的模型.在这个图模型中,各个有标签和未标签的样本被表示成图上的各个节点,而样本间的距离则作为图上各边的权重.然后,关系抽取的任务就转化成在这个图上估计出一个满足全局一致性假设的标注函数通过对ACE(automatic content extraction)语料库的评测,结果显示,当只有少量的标签样本时,采用该标注传递的方法可以获得比基于SVM(support vector machine)的有监督关系抽取更好的性能,同时也明显优于基于Bootstrapping的半监督关系抽取的方法.  相似文献   

9.
事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息, 并以结构化的形式表示出来. 事件抽取是自然语言处理与理解中的重要方向, 在政府公共事务管理、金融业务、生物医学等不同领域有着很高的应用价值. 根据对人工标注数据的依赖程度, 目前基于深度学习的事件抽取方法主要分为两类: 有监督和远程监督学习方法. 对当前深度学习中事件抽取技术进行了全面的综述. 围绕有监督中CNN、RNN、GAN、GCN与远程监督等方法, 系统地总结了近几年的研究情况, 并对不同的深度学习模型的性能进行了详细对比与分析. 最后, 对事件抽取面临的挑战进行了分析, 针对研究趋势进行了展望.  相似文献   

10.
化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease, CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%.  相似文献   

11.
在实际生活中,可以很容易地获得大量系统数据样本,却只能获得很小一部分的准确标签.为了获得更好的分类学习模型,引入半监督学习的处理方式,对基于未标注数据强化集成多样性(UDEED)算法进行改进,提出了UDEED+——一种基于权值多样性的半监督分类算法.UDEED+主要的思路是在基学习器对未标注数据的预测分歧的基础上提出权...  相似文献   

12.
数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。  相似文献   

13.
基于分歧的半监督学习   总被引:9,自引:0,他引:9  
周志华 《自动化学报》2013,39(11):1871-1878
传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据 提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢?为此,半监督学习 成为近十多年来机器学习的一大研究热点.基于分歧的半监督学习是该领域的主流范型之一,它通过使用多个学习器来对未标记数据进行利用, 而学习器间的"分歧"对学习成效至关重要.本文将综述简介这方面的一些研究进展.  相似文献   

14.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

15.
基于自适应数据剪辑策略的Tri-training算法   总被引:1,自引:0,他引:1  
邓超  郭茂祖 《计算机学报》2007,30(8):1213-1226
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.  相似文献   

16.
在监督或半监督学习的条件下对数据流集成分类进行研究是一个很有意义的方向.从基分类器、关键技术、集成策略等三个方面进行介绍,其中,基分类器主要介绍了决策树、神经网络、支持向量机等;关键技术从增量、在线等方面介绍;集成策略主要介绍了boosting、stacking等.对不同集成方法的优缺点、对比算法和实验数据集进行了总结与分析.最后给出了进一步研究方向,包括监督和半监督学习下对于概念漂移的处理、对于同质集成和异质集成的研究,无监督学习下的数据流集成分类等.  相似文献   

17.
郭涛  李贵洋  兰霞 《计算机工程》2012,38(13):163-165,168
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

18.
为了有效地利用结构信息,提出了一种新的自学习算法,算法中利用聚类方法从自标记样本中选择可信度高的样本,同时用一个数据编辑方法从这些可信度高的样本中剔除被错标的可能性较高的样本。算法在UCI数据上进行了验证,效果和收敛速度比对比算法要好,说明引入聚类选择候选样本是有效的。  相似文献   

19.
通过对已标示和未标示数据的学习和分类,提出一种改进微分进化算法的半监督模糊聚类。先从大量的数据中选取一小部分进行标记,然后利用标记数据来指导进化过程,实现对未标记数据的分类。通过参考粒子群算法惯性权重思想,引入惯性加权系数,在计算初期能够维持个体的多样性,后期能够加快算法的收敛速度,有效提高了算法的性能。遥感图像数据实验结果显示该方法可以提高分类精度。  相似文献   

20.
Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy data,etc.The reason behind is that it is difficult for these methods to capture multiple characteristics and underlying structure of data.In this context,it becomes an important topic in the data mining field that how to effectively construct an efficient knowledge discovery and mining model.Ensemble learning,as one research hot spot,aims to integrate data fusion,data modeling,and data mining into a unified framework.Specifically,ensemble learning firstly extracts a set of features with a variety of transformations.Based on these learned features,multiple learning algorithms are utilized to produce weak predictive results.Finally,ensemble learning fuses the informative knowledge from the above results obtained to achieve knowledge discovery and better predictive performance via voting schemes in an adaptive way.In this paper,we review the research progress of the mainstream approaches of ensemble learning and classify them based on different characteristics.In addition,we present challenges and possible research directions for each mainstream approach of ensemble learning,and we also give an extra introduction for the combination of ensemble learning with other machine learning hot spots such as deep learning,reinforcement learning,etc.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号