首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
将支持向量机与半监督学习理论相结合,提出基于支持向量机协同训练的半监督回归模型,使用两个支持向量机回归模型相互影响,协同训练。利用实验数据集进行实验,并与监督支持向量机回归模型、半监督自训练支持向量机回归模型作比较。实验结果表明,基于支持向量机协同训练的半监督回归模型在缺少标记样本的情况下,提高了回归估计的精度。  相似文献   

2.
主动协同半监督粗糙集分类模型   总被引:1,自引:0,他引:1  
粗糙集理论是一种有监督学习模型,一般需要适量有标记的数据来训练分类器。但现实一些问题往往存在大量无标记的数据,而有标记数据由于标记代价过大较为稀少。文中结合主动学习和协同训练理论,提出一种可有效利用无标记数据提升分类性能的半监督粗糙集模型。该模型利用半监督属性约简算法提取两个差异性较大的约简构造基分类器,然后基于主动学习思想在无标记数据中选择两分类器分歧较大的样本进行人工标注,并将更新后的分类器交互协同学习。UCI数据集实验对比分析表明,该模型能明显提高分类学习性能,甚至能达到数据集的最优值。  相似文献   

3.
针对不完备弱标记数据的学习问题,提出基于粗糙集理论的半监督协同学习模型.首先定义不完备弱标记数据的半监督差别矩阵,提出充分、具有差异性的约简子空间获取算法.然后在有标记数据集上利用各约简子空间训练两个基分类器.在无标记数据上,各分类器基于协同学习的思想标注信度较大的无标记样本给另一分类器学习,迭代更新直至无可利用的无标记数据.UCI数据集实验对比分析表明,文中模型可以获得更好的不完备弱标记数据的分类学习性能,具有有效性.  相似文献   

4.
为了减轻用户疲劳并增强算法的搜索性能,本文在变种群规模交互式遗传算法的基础上引入协同训练半监督学习方法,提出基于半监督学习的变种群规模区间适应值交互式遗传算法.根据对大规模种群的聚类结果,给出标记样本和未标记样本的获取方法;结合半监督协同学习器逼近误差的改变,提出高可信度未标记样本的选择策略;采用半监督协同学习机制训练两个径向基函数(RBF)神经网络,构造精度高泛化能力强的代理模型;在进化过程中,利用代理模型估计大种群规模进化个体适应值,并根据估计偏差更新代理模型.算法的理论分析及其在服装进化设计系统中的应用结果说明了算法的有效性.  相似文献   

5.
具有噪声过滤功能的协同训练半监督主动学习算法   总被引:1,自引:0,他引:1  
针对基于半监督学习的分类器利用未标记样本训练会引入噪声而使得分类性能下降的情形,文中提出一种具有噪声过滤功能的协同训练半监督主动学习算法.该算法以3个模糊深隐马尔可夫模型进行协同半监督学习,在适当的时候主动引入一些人机交互来补充类别标记,避免判决类别不相同时的拒判和初始时判决一致即认为正确的误判情形.同时加入噪声过滤机制,用以过滤南机器自动标记的可能是噪声的样本.将该算法应用于人脸表情识别.实验结果表明,该算法能有效提高未标记样本的利用率并降低半监督学习而引入的噪声,提高表情识别的准确率.  相似文献   

6.
利用构造性学习(CML)算法训练分类器需要大量已标记样本,然而获取大量已标记的样本较为困难。为此,提出了一种协同半监督的构造性学习算法。将已标记样本等分为三个训练集,分别使用构造性学习算法训练三个单分类器,以共同投票的方式对未标记样本进行标记,从而依次扩充三个单分类器训练集直到不能再扩充为止。将三个训练集合并训练出最终的分类器。选取UCI数据集进行实验,结果表明,与CML算法、Tri-CML算法、NB算法及Tri-NB相比,该方法的分类更为有效。  相似文献   

7.
针对极限学习机(ELM)未充分利用未标注样本、训练精度受网络权值初值影响的问题,提出一种基于协同训练与差分进化的改进ELM算法(Tri-DE-ELM)。考虑到传统的ELM模式分类技术只利用了少量标注样本而忽视大量未标注样本的问题,首先应用基于Tri-Training算法的协同训练机制构建Tri-ELM半监督分类算法,利用少量的标记样本训练三个基分类器实现对未标记样本的标注。进一步针对基分类器训练中ELM网络输入层权值随机初始化影响分类效果的问题,采用差分进化(DE)算法对网络初值进行优化,优化目标及过程同时包括网络权值和分类误差两方面的因素,以避免网络的过拟合现象。在标准数据集上的实验结果表明,Tri-DE-ELM算法能有效地利用未标注数据,具有比传统ELM更高的分类精度。  相似文献   

8.
监督学习需要利用大量的标记样本训练模型,但实际应用中,标记样本的采集费时费力。无监督学习不使用先验信息,但模型准确性难以保证。半监督学习突破了传统方法只考虑一种样本类型的局限,能够挖掘大量无标签数据隐藏的信息,辅助少量的标记样本进行训练,成为机器学习的研究热点。通过对半监督学习研究的总趋势以及具体研究内容进行详细的梳理与总结,分别从半监督聚类、分类、回归与降维以及非平衡数据分类和减少噪声数据共六个方面进行综述,发现半监督方法众多,但存在以下不足:(1)部分新提出的方法虽然有效,但仅通过特定数据集进行了实证,缺少一定的理论证明;(2)复杂数据下构建的半监督模型参数较多,结果不稳定且缺乏参数选取的指导经验;(3)监督信息多采用样本标签或成对约束形式,对混合约束的半监督学习需要进一步研究;(4)对半监督回归的研究匮乏,对如何利用连续变量的监督信息研究甚少。  相似文献   

9.
孔志周  蔡自兴 《控制与决策》2011,26(11):1616-1620
针对半监督学习中未标记示例导致性能下降的问题,提出一种新的协同训练算法LDL-tri-training.首先通过最小显著性差异(LSD)假设检验方法使得3个成员分类器两两之间具有显著性差异;然后采用D-S证据理论提高标注的稳定性;最后利用局部异常因子检测算法剔除误标记的噪声样本.实验表明,与其他方法相比,LDL-tri-training算法具有较高的分类精度和稳定性.  相似文献   

10.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

11.
为解决行人重识别标注成本巨大的问题,提出了基于单标注样本的多损失学习与联合度量视频行人重识别方法.针对标签样本数量少,得到的模型不够鲁棒的问题,提出了多损失学习(MLL)策略:在每次训练过程中,针对不同的数据,采用不同的损失函数进行优化,提高模型的判别力.其次,在标签估计时,提出了一个联合距离度量(JDM),该度量将样...  相似文献   

12.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

13.
三维模型语义自动标注的目标是自动给出最适合描述模型的标注词集合,是基于文本的三维模型检索的重要环节。语义鸿沟的存在使得相似匹配技术得到的标注效果有待提高。为了在用户提供的有限模型数量和对应的标注词信息下,在自动标注过程中利用大量的未标注样本改善三维模型的标注性能,提出了一种半监督测度学习方法完成三维模型语义自动标注。该方法首先使用基于图的半监督学习方法扩展已标注模型集合,并给出扩展集合中语义标签表征模型的语义置信度,使用改进的相关成分分析方法学习马氏距离度量,依据学习到的距离和语义置信度形成多语义标注策略。在PSB(Princeton Shape Benchmark)数据集上的测试表明,该方法利用了大量未标注样本参与标注过程,取得了比较好的标注效果。  相似文献   

14.
基于小样本学习的垃圾邮件过滤方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?ve Bayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。  相似文献   

15.
精确的光伏发电预测对提高电力系统稳定性、保证电能质量、优化电网运行具有重大意义。为了解决现存光伏预测算法精度较低、性能较差的问题,同时为了综合利用多层感知器(MLP)解决非线性问题的能力以及深度信念网络(DBN)有效处理大量复杂数据的优势,构建了一种融合MLP和DBN的光伏预测算法(MLP-DBN),其基本思想是先利用MLP模型进行初步预测,再将观测值与预测值的残差输入DBN预测模型进行预测,最后用残差预测值对MLP模型的预测值进行修正。利用光伏发电实测数据仿真,探究了不同学习率下模型的预测性能,并对模型的各参数进行了寻找优化设置。使用均方根误差、平均绝对误差以及决定系数等性能指标评估结果表明,与传统的预测算法支持向量机(SVM)以及具有较高预测精度的深度学习算法长短期记忆网络(LSTM)相比,MLP-DBN算法性能有明显的提升,为光伏发电提供了一种高精度高性能的预测算法,可以有效解决光伏发电预测问题。  相似文献   

16.
半监督学习中当未标注样本与标注样本分布不同时,将导致分类器偏离目标数据的主题,降低分类器的正确性.文中采用迁移学习技术,提出一种TranCo-Training分类模型.每次迭代,根据每个未标注样本与其近邻标注样本的分类一致性计算其迁移能力,并根据迁移能力从辅助数据集向目标数据集迁移实例.理论分析表明,辅助样本的迁移能力与其训练错误损失成反比,该方法能将训练错误损失最小化,避免负迁移,从而解决半监督学习中的主题偏离问题.实验表明,TranCo-Training优于随机选择未标注样本的RdCo-Training算法,尤其是给定少量的标注目标样本和大量的辅助未标注样本时.  相似文献   

17.
正未标记学习仅使用无标签样本和正样本训练一个二分类器, 而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器. 为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果, 可将GAN中的生成器替换为分类器C, 在无标签数据集中挑选样本以欺骗判别器D, 对CD进行迭代优化. 本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型. 最后, 结合数据分布特点及现状需求, 说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能. 在MNIST, CIFAR-10数据集上的实验结果显示: KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score; 对称化改进后, JS-PAN模型在两个指标上均有所提升, 因此JS-PAN模型的提出更具有合理性. 在Med-MNIST的3个子图像数据集上的实验显示: KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现. 因此, 综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果, 在医学图像的二分类的任务上具有更高的性能.  相似文献   

18.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

19.
PU文本分类(以正例和未标识实例集训练分类器的分类方法)关键在于从U(未标识实例)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其它的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。  相似文献   

20.
软件缺陷预测有助于提高软件开发质量,保证测试资源有效分配。针对软件缺陷预测研究中类标签数据难以获取和类不平衡分布问题,提出基于采样的半监督支持向量机预测模型。该模型采用无监督的采样技术,确保带标签样本数据中缺陷样本数量不会过低,使用半监督支持向量机方法,在少量带标签样本数据基础上利用无标签数据信息构建预测模型;使用公开的NASA软件缺陷预测数据集进行仿真实验。实验结果表明提出的方法与现有半监督方法相比,在综合评价指标[F]值和召回率上均优于现有方法;与有监督方法相比,能在学习样本较少的情况下取得相当的预测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号