首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
任杰  闵帆  汪敏 《计算机应用》2019,39(9):2499-2504
主动学习旨在通过人机交互减少专家标注,代价敏感主动学习则致力于平衡标注与误分类代价。基于三支决策(3WD)和标签均匀分布(LUD)模型,提出一种基于最远总距离采样的代价敏感主动学习算法(CAFS)。首先,设计了最远总距离采样策略,以查询代表性样本的标签;其次,利用了LUD模型和代价函数,计算期望采样数目;最后,使用了k-Means聚类技术分裂已获得不同标签的块。CAFS算法利用三支决策思想迭代地进行标签查询、实例预测和块分裂,直至处理完所有实例。学习过程在代价最小化目标的控制下进行。在9个公开数据上比较,CAFS比11个主流的算法具有更低的平均代价。  相似文献   

2.
针对现有三支决策模型的研究对象多为单一性数据的决策系统,对于混合数据边界域样本处理的研究相对较少,本文面向混合数据提出了基于核属性的代价敏感三支决策边界域分类方法。该方法基于正域约简计算混合邻域决策系统的核属性集,在此基础上计算混合邻域类,并利用三支决策规则分别将对象划分到各决策类的正域、边界域和负域;提出了一种基于代价敏感学习的三支决策边界域分类方法,并构造了误分类代价的计算方法,以此划分边界域中的对象。通过对UCI上的10个数据集进行实验对比与分析,进一步验证了本文方法,为处理边界域样本提供了一种可行有效的方法。  相似文献   

3.
Paw lak粗糙集模型没有对正域、边界域和负域赋予语义,不能进行再决策,而三支决策对边界域赋予了新的语义,可以对边界域做出进一步刻画,对于边界域的进一步划分,依据属性的重要性,使满足条件的样本划入再决策域,不满足条件的样本继续保留在边界域中,降低了边界域样本处理的失误率.本文在对概率粗糙集模型、三支决策粗糙集的理论、贝叶斯理论的决策过程和决策粗糙集模型进行研究的基础上,提出了一种三支决策与决策粗糙集融合模型,与Paw lak-三支决策模型相比,其划分损失更小,处理结果更优.该模型运用三支决策理论对决策粗糙集的边界域赋予延迟决策的语义,对于延迟决策再运用三支决策理论进行迭代操作,对边界域样本进一步处理.在迭代的过程中,依据属性的重要程度将属性排序,从而客观的得到迭代过程中每次优先依据哪个属性进行划分.实验结果表明,该模型比单一运用决策粗糙集模型进行决策代价小,三支决策通过迭代对边界域处理的正确率有所提高,这为准确决策提供了一种新的方法.  相似文献   

4.
王帆  韩忠义  苏皖  尹义龙 《软件学报》2024,35(4):1651-1666
无监督域自适应在解决训练集(源域)和测试集(目标域)分布不一致的问题上已经取得了一定的成功.在面向低能耗场景和开放动态任务环境时,在资源约束和开放类别出现的情况下,现有的无监督域自适应方法面临着严峻的挑战.源域无关开集域自适应(SF-ODA)旨在将源域模型中的知识迁移到开放类出现的无标签目标域,从而在无源域数据资源的限制下辨别公共类和检测开放类.现有的源域无关开集域自适应的方法聚焦于设计准确检测开放类别的源域模型或增改模型的结构.但是,这些方法不仅需要额外的存储空间和训练开销,而且在严格的隐私保护场景下难以实现.提出了一个更加实际的场景:主动学习的源域无关开集域自适应(ASF-ODA),目标是基于一个普通训练的源域模型和少量专家标注的有价值的目标域样本来实现鲁棒的迁移.为了达成此目标,提出了局部一致性主动学习(LCAL)算法.首先,利用目标域中局部特征标签一致的特点,LCAL设计了一种新的主动选择方法:局部多样性选择,来挑选更有价值的阈值模糊样本来促进开放类和公共类分离.接着,LCAL基于信息熵初步筛选出潜在的公共类集合和开放类集合,并利用第一步得到的主动标注样本对这两个集合进行匹配纠...  相似文献   

5.
基于平均期望间隔的多标签分类主动学习方法   总被引:1,自引:0,他引:1       下载免费PDF全文
刘端阳  邱卫杰 《计算机工程》2011,37(15):168-170
针对多标签主动学习速度较慢的问题,提出一种基于平均期望间隔的多标签分类的主动学习方法。计算支持向量机分类器中的期望间隔,并将其作为样本选择标准。实验结果表明,该方法在分类精度、Hamming Loss、Coverage等评价标准上优于基于决策值和后验概率等主动学习策略,能更好地评价未标记样本,有效提高分类精度和速度。  相似文献   

6.
领域自适应将源域上学习到的知识迁移到目标域上,使得在带标签数据少的情况下也可以有效地训练模型。采用伪标签的领域自适应模型未考虑错误伪标签的影响,并且在决策边界处样本的分类准确率较低,针对上述问题提出了基于加权分类损失和核范数的领域自适应模型。该模型使用带有伪标签的可信样本特征与带有真实标签的源域样本特征构建辅助域,在辅助域上设计加权分类损失函数,降低错误伪标签在训练过程中产生的影响;加入批量核范数最大化损失,提高决策边界处样本的分类准确率。在Office31、Office-Home、Image-CLEFDA基准数据集上与之前模型的对比实验表明,该模型有更高的精确度。  相似文献   

7.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

8.
针对典型的支持向量机增量学习算法对有用信息的丢失和现有支持向量机增量学习算法单纯追求分类器精准性的客观性,将三支决策损失函数的主观性引入支持向量机增量学习算法中,提出了一种基于三支决策的支持向量机增量学习方法.首先采用特征距离与中心距离的比值来计算三支决策中的条件概率;然后把三支决策中的边界域作为边界向量加入到原支持向量和新增样本中一起训练;最后,通过仿真实验证明,该方法不仅充分利用有用信息提高了分类准确性,而且在一定程度上修正了现有支持向量机增量学习算法的客观性,并解决了三支决策中条件概率的计算问题.  相似文献   

9.
构造性覆盖算法(constructive covering algorithm,CCA)三支决策模型在学习过程中根据样本分布特征,自动产生正域、负域和边界域。该模型为边界域样本处理问题提供了新的思路。重点讨论了基于CCA的三支决策的边界域样本处理问题。对边界域样本处理提出了两种决策方案:一种为处理全部的边界域样本,给出了距中心最近原则、距边界最近原则、万有引力原则3种方法;另一种为处理部分的边界域样本,即只对满足一定条件的边界域样本作进一步的划分,这样使不满足条件的边界域样本仍保留在边界域,提高了边界域样本处理的正确率。用十字交叉法在5组数据集上对这两种决策方案进行了对比,实验结果表明,处理部分边界域样本时正确率更高,效果更好。  相似文献   

10.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

11.
In active learning, the learner is required to measure the importance of unlabeled samples in a large dataset and select the best one iteratively. This sample selection process could be treated as a decision making problem, which evaluates, ranks, and makes choices from a finite set of alternatives. In many decision making problems, it usually applied multiple criteria since the performance is better than using a single criterion. Motivated by these facts, an active learning model based on multi-criteria decision making (MCMD) is proposed in this paper. After the investigation between any two unlabeled samples, a preference preorder is determined for each criterion. The dominated index and the dominating index are then defined and calculated to evaluate the informativeness of unlabeled samples, which provide an effective metric measure for sample selection. On the other hand, under multiple-instance learning (MIL) environment, the instances/samples are grouped into bags, a bag is negative only if all of its instances are negative, and is positive otherwise. Multiple-instance active learning (MIAL) aims to select and label the most informative bags from numerous unlabeled ones, and learn a MIL classifier for accurately predicting unseen bags by requesting as few labels as possible. It adopts a MIL algorithm as the base classifier, and follows an active learning procedure. In order to achieve a balance between learning efficiency and generalization capability, the proposed active learning model is restricted to a specific algorithm under MIL environment. Experimental results demonstrate the effectiveness of the proposed method.  相似文献   

12.
In many real-world applications, labeled data are usually expensive to get, while there may be a large amount of unlabeled data. To reduce the labeling cost, active learning attempts to discover the most informative data points for labeling. The challenge is which unlabeled samples should be labeled to improve the classifier the most. Classical optimal experimental design algorithms are based on least-square errors over the labeled samples only while the unlabeled points are ignored. In this paper, we propose a novel active learning algorithm called neighborhood preserving D-optimal design. Our algorithm is based on a neighborhood preserving regression model which simultaneously minimizes the least-square error on the measured samples and preserves the neighborhood structure of the data space. It selects the most informative samples which minimize the variance of the regression parameter. We also extend our algorithm to nonlinear case by using kernel trick. Experimental results on terrain classification show the effectiveness of proposed approach.  相似文献   

13.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

14.
基于深度贝叶斯主动学习的高光谱图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。  相似文献   

15.
主动协同半监督粗糙集分类模型   总被引:1,自引:0,他引:1  
粗糙集理论是一种有监督学习模型,一般需要适量有标记的数据来训练分类器。但现实一些问题往往存在大量无标记的数据,而有标记数据由于标记代价过大较为稀少。文中结合主动学习和协同训练理论,提出一种可有效利用无标记数据提升分类性能的半监督粗糙集模型。该模型利用半监督属性约简算法提取两个差异性较大的约简构造基分类器,然后基于主动学习思想在无标记数据中选择两分类器分歧较大的样本进行人工标注,并将更新后的分类器交互协同学习。UCI数据集实验对比分析表明,该模型能明显提高分类学习性能,甚至能达到数据集的最优值。  相似文献   

16.
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

17.
龚彦鹭  吕佳 《计算机应用》2019,39(8):2297-2301
针对协同训练算法对模糊度高的样本容易标记错误导致分类器精度降低和协同训练在迭代时选择加入的无标记样本隐含有用信息不够的问题,提出了一种结合主动学习和密度峰值聚类的协同训练算法。在每次迭代之前,先选择模糊度高的无标记样本主动标记后加入有标记样本集,然后利用密度峰值聚类对无标记样本聚类得到每个无标记样本的密度和相对距离。迭代时选择具有较高密度和相对距离较远的无标记样本交由朴素贝叶斯(NB)分类,反复上述过程直到满足终止条件。利用主动学习标记模糊度高的样本能够改善分类器误标记识别问题,利用密度峰值聚类能够选择出较好表现数据空间结构的样本。在UCI的8个数据集和Kaggle的pima数据集上的实验表明,与SSLNBCA算法相比,所提算法的准确率最高提升6.7个百分点,平均提升1.46个百分点。  相似文献   

18.
多数分类识别算法需要大量的已标注样本对分类模型进行训练。实际应用中,对大量样本进行标注枯燥耗时且代价昂贵,因此能够获得的已标注样本数量非常有限。将基于不确定性样本的主动学习和代表性样本的自学习方法引入到基于支持向量数据描述的分类模型中,提出了一种新的分类识别方法。通过主动学习去挖掘那些对当前分类模型最有价值的样本进行人工标注,并借助自学习方法进一步利用样本集中大量的未标注样本,使得在花费较小的标注代价下,能够获得良好的分类性能。在潜艇机械噪声源识别问题上的实验结果验证了该方法能有效降低样本标注代价。  相似文献   

19.
一种基于内容图像检索的半监督和主动学习算法   总被引:1,自引:0,他引:1  
为了提高图像检索中相关反馈算法的效率,提出了一种新的基于相关概率的主动学习算法SVMpr,并结合半监督学习,设计了基于半监督的主动学习图像检索框架。在相关反馈过程中,首先利用半监督学习算法TSVM对标记样本进行训练,然后根据提出的主动学习算法从未标记图像中选取k幅有利于优化学习过程的图像并反馈给用户标记。与传统的相关反馈算法相比,该文提出的图像检索框架显著提高了学习器的效率和性能,并快速收敛于用户的查询概念。  相似文献   

20.
基于主动学习和半监督学习的多类图像分类   总被引:5,自引:0,他引:5  
陈荣  曹永锋  孙洪 《自动化学报》2011,37(8):954-962
多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中, 对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达 (Synthetic aperture radar, SAR)图像, 对其内容判读非常困难,因此能够获得的标注样本数量非常有限. 本文将基于最优标号和次优标号(Best vs second-best, BvSB)的主动学习和带约束条件的自学习(Constrained self-training, CST) 引入到基于支持向量机(Support vector machine, SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB 主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半 监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下, 能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学 习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR图像集分类 问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数 量,并获得较高的准确率和较好的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号