首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 78 毫秒
1.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

2.
基于自适应数据剪辑策略的Tri-training算法   总被引:1,自引:0,他引:1  
邓超  郭茂祖 《计算机学报》2007,30(8):1213-1226
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.  相似文献   

3.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

4.
构造性机器学习(CML)算法在训练分类器时需要大量有标记样本,而获取这些有标记样本十分困难。为此,提出一种基于Tri- training算法的构造性学习方法。根据已标记的样本,采用不同策略构造3个差异较大的初始覆盖分类网络,用于对未标记数据进行标记,再将已标记数据加入到训练样本中,调整各分类网络参数,反复进行上述过程,直至获得稳定的分类器。实验结果证明,与CML算法和基于NB分类器的半监督学习算法相比,该方法的分类准确率更高。  相似文献   

5.
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.  相似文献   

6.
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

7.
蒋润  顾春华  阮彤 《计算机应用》2014,34(4):1099-1104
评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tri-training的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tri-training的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。  相似文献   

8.
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

9.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

10.
弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tri-training with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。  相似文献   

11.
随着生物医学文献的快速增长,在海量的生物医学文献中存在大量有关疾病、病症和治疗物质的信息,这些信息对疾病的治疗和药物的研制有着重要的意义。针对疾病与治疗物质之间的信息抽取,重点训练两个模型,即疾病与病症模型和病症与治疗物质模型。疾病与病症模型判断一种疾病是否会存在或者导致一种生理现象的产生;病症与治疗物质模型判断一种物质是否改变人的生理现象或者生理过程。使用半监督学习的Tri-training的方法,利用大量未标注数据辅助少量有标注数据进行训练提高分类性能。实验结果表明,Tri-training方法中利用未标注数据有助于提高实验结果;且在训练过程中使用集成学习的思想将三个分类器器集成在一起,提高了学习性能。  相似文献   

12.
现有深度学习算法应用于PolSAR图像分类时,较少考虑该图像数据的复数特点,使得数据的复数域信息不能被充分利用;同时,深度学习需要大量的标签样本作为模型的训练样本,但是PolSAR图像可获取的标签样本十分有限.针对上述问题,结合Tri-training算法和复值卷积神经网络(CV-CNN)提出了半监督PolSAR图像分类算法.首先通过Wishart分类器和Tri-training算法获取一些可靠性较高的伪标签样本,然后将其加入到复值卷积神经网络的训练样本中并用于模型训练,最终完成图像分类任务.通过四幅PolSAR图像分类的仿真实验表明,该算法不仅能够有效提升伪标签样本的可靠性,同时还可提高模型的分类准确率.  相似文献   

13.
莫建文  贾鹏 《自动化学报》2022,48(8):2088-2096
为了提高半监督深层生成模型的分类性能, 提出一种基于梯形网络和改进三训练法的半监督分类模型. 该模型在梯形网络框架有噪编码器的最高层添加3个分类器, 结合改进的三训练法提高图像分类性能. 首先, 用基于类别抽样的方法将有标记数据分为3份, 模型以有标记数据的标签误差和未标记数据的重构误差相结合的方式调整参数, 训练得到3个Large-margin Softmax分类器; 接着, 用改进的三训练法对未标记数据添加伪标签, 并对新的标记数据分配不同权重, 扩充训练集; 最后, 利用扩充的训练集更新模型. 训练完成后, 对分类器进行加权投票, 得到分类结果. 模型得到的梯形网络的特征有更好的低维流形表示, 可以有效地避免因为样本数据分布不均而导致的分类误差, 增强泛化能力. 模型分别在MNIST数据库, SVHN数据库和CIFAR10数据库上进行实验, 并且与其他半监督深层生成模型进行了比较, 结果表明本文所提出的模型得到了更高的分类精度.  相似文献   

14.
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先, 采用传统K-均值聚类算法对数据集进行粗聚类; 其次, 根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度, 筛选出满足最大与次大隶属度差值小于阈值的候选数据, 并从中选择差值较小的数据作为最富信息的数据进行标记; 最后, 将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明, 提出的主动学习策略能够很好地学习到最富信息数据, 基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号