首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
曹永锋  陈荣  孙洪 《计算机科学》2013,40(8):309-312
对尽量少的样本进行人工标注并获得较好的分类性能是图像分类应用的一个关键问题。针对标注样本选择,提出了一种综合样本不确定性度量和代表性度量的主动学习样本选择准则。基于最优标号和次优标号(Best vs.second-best,BvSB)的主动学习方法构建不确定性度量,利用分层聚类(Hierarchical Clustering,HC)方法得到数据集的分层聚类树,然后依据聚类树结构和已标注样本在其中的分布信息定义每个未标注样本的代表性度量。将新方法与随机样本选择以及BvSB主动学习方法进行了比较,对1个光学图像集和1个全极化SAR数据集分类问题的实验结果显示,新方法性能稳定,优于其他两种方法。  相似文献   

2.
多数分类识别算法需要大量的已标注样本对分类模型进行训练。实际应用中,对大量样本进行标注枯燥耗时且代价昂贵,因此能够获得的已标注样本数量非常有限。将基于不确定性样本的主动学习和代表性样本的自学习方法引入到基于支持向量数据描述的分类模型中,提出了一种新的分类识别方法。通过主动学习去挖掘那些对当前分类模型最有价值的样本进行人工标注,并借助自学习方法进一步利用样本集中大量的未标注样本,使得在花费较小的标注代价下,能够获得良好的分类性能。在潜艇机械噪声源识别问题上的实验结果验证了该方法能有效降低样本标注代价。  相似文献   

3.
目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。  相似文献   

4.
针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。  相似文献   

5.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

6.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

7.
在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。  相似文献   

8.
机器学习中的监督学习算法需要用有标记样本训练分类模型。而收集训练样本,并进行分类的过程,需要耗费大量人力物力以及时间。因此,如何高效率地完成图像分类一直是业内研究的热点。提出了一种基于霍夫森林和半监督学习的图像分类算法,能用较少的样本训练分类器,并在分类的过程中不断获取新的训练样本。并对部分训练结果加以人工标注,该方法有效提高了标注效率。利用COREL数据对该算法进行了实验验证,结果表明,该算法可以利用少量的训练样本,得到令人满意的标注精确度,提高人工效率。  相似文献   

9.
针对全极化SAR图像在监督分类中存在的人工标注样本费时费力以及多种极化特征未能综合利用等问题,提出一种基于协同训练与集成学习的极化SAR图像半监督分类方法。该方法以支持向量机作为半监督学习的基分类器,通过协同学习机制将多种极化目标分解下的特征有效结合,实现同时利用无标注和有标注样本,最后通过集成学习进一步提高分类模型的泛化能力。在AIRSAR和EMISAR影像上的实验表明,该方法能充分利用不同特征的特点,在较少人工标注的样本下也能获得较高的分类精度。  相似文献   

10.
命名实体识别的目的是识别文本中的实体指称的边界和类别。在进行命名实体识别模型训练的过程中,通常需要大量的标注样本。本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作。通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本。通过设计在微博网络数据集上的实验,验证本文提出的基于流的主动学习算法可以针对大量互联网文本数据选择出更合适的样本集,能够有效减少人工标注的成本。本文通过2个模型分别实现实体的边界提取和类别区分。序列标注模型提取出实体在序列中的位置,实体分类模型实现对标注结果的分类,并利用主动学习的方法实现在无标注数据集上的训练。使用本文的训练方法在2个数据集上进行实验。在Weibo数据集上的实验展示算法能从无标签数据集中学习到文本特征。在MSRA数据集上的实验结果显示,在预训练数据集的比例达到40%以上时,模型在测试数据集上的F1值稳定在90%左右,与使用全部数据集的结果接近,说明模型在无标签数据集上具有一定的特征提取能力。  相似文献   

11.
基于深度贝叶斯主动学习的高光谱图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。  相似文献   

12.
构造性机器学习(CML)算法在训练分类器时需要大量有标记样本,而获取这些有标记样本十分困难。为此,提出一种基于Tri- training算法的构造性学习方法。根据已标记的样本,采用不同策略构造3个差异较大的初始覆盖分类网络,用于对未标记数据进行标记,再将已标记数据加入到训练样本中,调整各分类网络参数,反复进行上述过程,直至获得稳定的分类器。实验结果证明,与CML算法和基于NB分类器的半监督学习算法相比,该方法的分类准确率更高。  相似文献   

13.
场景分类对于场景图像的语义解译至关重要,是遥感领域近期的主要研究课题之一。针对大部分图像分类方法中提取的特征结构单一,依赖于大量人工标记的数据以及分类器的训练过程缓慢等问题,提出了一种基于多特征融合与约束极限学习机(constrained extreme learning machines,CELM)的场景图像分类方法。该方法采用三种不同结构的预训练卷积神经网络,利用特定数据集对其进行微调,将微调后网络提取到的三种特征进行融合并送入CELM分类器进行分类,最终得到图像的类别标签。以SIRI-WHU、WHU-RS19与UC-Merced数据集作为实验数据集,在预训练卷积神经网络、单一特征和传统分类器上进行的对比实验表明,基于多特征融合与CELM相结合的方法产生了较好的分类效果,三种数据集上的总分类精度分别高达99.25%、98.26%与97.70%。  相似文献   

14.
目前深度学习在医学图像分析领域取得的良好表现大多取决于高质量带标注的数据集, 但是医学图像由于其专业性和复杂性, 数据集的标注工作往往需要耗费巨大的成本. 本文针对这一问题设计了一种基于深度主动学习的半自动标注系统, 该系统通过主动学习算法减少训练深度学习标注模型所需的标注样本数量, 训练完成后的标注模型可以用于剩余数据集的标注工作. 系统基于Web应用构建, 无需安装且能跨平台访问, 便于用户完成标注工作.  相似文献   

15.
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on ran-dom sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance, DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。  相似文献   

16.
赵悦  穆志纯 《计算机工程》2006,32(24):23-25
结合委员会成员投票熵和相对熵,改进了基于委员会选择算法(QBC)的主动学习,并应用基于该算法的主动贝叶斯网络对电信客户信用风险分类进行建模。实验结果表明,提出的基于改进的QBC主动贝叶斯网络分类器所建模型比原有算法有更好的分类精度,并且使用了少量的训练数据。  相似文献   

17.
Object-based image analysis (OBIA) is a new remote-sensing-based image processing technology that has become popular in recent years. In spite of its remarkable advantages, the segmentation results that it generates feature a large number of mixed objects owing to the limitations of OBIA segmentation technology. The mixed objects directly influence the acquisition of training samples and the labelling of objects and thus affect the stability of classification performance. In light of this issue, this article evaluates the influence of classification uncertainty on classification performance and proposes a sampling strategy based on active learning. This sampling strategy is novel in two ways: (1) information entropy is used to evaluate the classification uncertainty of segmented objects; all segmented objects are classified as having zero or non-zero entropies, and the latter are arranged in terms of decreasing entropy. (2) Based on an evaluation of the influence of classification uncertainty on classification performance, an active learning technology is developed. A certain proportion of zero-entropy objects is acquired via random sampling used as seed training samples for active learning, non-zero-entropy objects are used as a candidate set for active learning, and the entropy query-by-bagging (EQB) algorithm is used to conduct active learning to acquire optimal training samples. In this study, three groups of high-resolution images were tested. The test results show that zero-entropy and non-zero-entropy objects are indispensable to the classifier, where the optimal range of the ratio of combination of the two is between 0.2 and 0.6. Moreover, the proposed sampling strategy can effectively improve the stability and accuracy of classification.  相似文献   

18.
为有效使用大量未标注的图像进行分类,提出一种基于半监督学习的图像分类方法。通过共同的隐含话题桥接少量已标注的图像和大量未标注的图像,利用已标注图像的Must-link约束和Cannot-link约束提高未标注图像分类的精度。实验结果表明,该方法有效提高Caltech-101数据集和7类图像集约10%的分类精度。此外,针对目前绝大部分半监督图像分类方法不具备增量学习能力这一缺点,提出该方法的增量学习模型。实验结果表明,增量学习模型相比无增量学习模型提高近90%的计算效率。关键词半监督学习,图像分类,增量学习中图法分类号TP391。41IncrementalImageClassificationMethodBasedonSemi-SupervisedLearningLIANGPeng1,2,LIShao-Fa2,QINJiang-Wei2,LUOJian-Gao31(SchoolofComputerScienceandEngineering,GuangdongPolytechnicNormalUniversity,Guangzhou510665)2(SchoolofComputerScienceandEngineering,SouthChinaUniversityofTechnology,Guangzhou510006)3(DepartmentofComputer,GuangdongAIBPolytechnicCollege,Guangzhou510507)ABSTRACTInordertouselargenumbersofunlabeledimageseffectively,animageclassificationmethodisproposedbasedonsemi-supervisedlearning。Theproposedmethodbridgesalargeamountofunlabeledimagesandlimitednumbersoflabeledimagesbyexploitingthecommontopics。Theclassificationaccuracyisimprovedbyusingthemust-linkconstraintandcannot-linkconstraintoflabeledimages。TheexperimentalresultsonCaltech-101and7-classesimagedatasetdemonstratethattheclassificationaccuracyimprovesabout10%bytheproposedmethod。Furthermore,duetothepresentsemi-supervisedimageclassificationmethodslackingofincrementallearningability,anincrementalimplementationofourmethodisproposed。Comparingwithnon-incrementallearningmodelinliterature,theincrementallearningmethodimprovesthecomputationefficiencyofnearly90%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号