首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
选取最大可能预测错误样例的主动学习算法   总被引:5,自引:1,他引:4  
通过选取并提交专家标注最有信息量的样例,主动学习算法中可以有效地减轻标注大量未标注样例的负担.采样是主动学习算法中一个影响性能的关键因素.当前主流的采样算法往往考虑选取的样例尽可能平分版本空间.但这一方法假定版本空间中的每一假设都具有相同的概率成为目标函数,而这在真实世界问题中不可能满足.分析了平分版本策略的局限性.进而提出一种旨在尽可能最大限度减小版本空间的启发式采样算法MPWPS(the most possibly wrong-predicted sampling),该算法每次采样时选取当前分类器最有可能预测错误的样例,从而淘汰版本空间中多于半数的假设.这种方法使分类器在达到相同的分类正确率时,采样次数比当前主流的针对平分版本空间的主动学习算法采样次数更少.实验表明,在大多数数据集上,当达到相同的目标正确率时,MPWPS方法能够比传统的采样算法采样次数更少.  相似文献   

2.
环境音分类是当前语音识别领域的研究热点。主动学习是利用未标记数据,在少量标记数据代价下提高监督学习算法的分类性能的方法。文中提出了熵优先采样(Entropy Priority Sampling,EPS)方法和简单不一致采样(Simple Disagreement Sampling,SDS)方法作为主动学习选择样本的策略。针对环境音数据,提取11维的CELP音频特征,采用单一分类器与EPS,SDS方法对不同标记训练样本比例下的分类实验结果进行了比较分析。结果表明,主动学习方法在标记样本数较少的情况下,能取得较好的分类效果,并且EPS方法的性能优于SDS方法。  相似文献   

3.
提出一种集成主动学习和支持向量机的学习算法并应用于基于内容的图像检索.首先在相关反馈过程中结合样本不确定性与减小样本间冗余度的采样策略选择样本进行类别标记组成样本集训练支持向量机分类器,然后利用得到的分类器进行图像检索,直至用户满意为止.基于遥感影像的实验表明,算法能够提高基于内容的图像检索的效率和性能.  相似文献   

4.
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

5.
针对目前归纳逻辑程序设计(inductive logic programming,ILP)系统要求训练数据充分且无法利用无标记数据的不足,提出了一种利用无标记数据学习一阶规则的算法——关系tri-training(relational-tri-training,R-tri-training)算法。该算法将基于命题逻辑表示的半监督学习算法tri-training的思想引入到基于一阶逻辑表示的ILP系统,在ILP框架下研究如何利用无标记样例信息辅助分类器训练。R-tri-training算法首先根据标记数据和背景知识初始化三个不同的ILP系统,然后迭代地用无标记样例对三个分类器进行精化,即如果两个分类器对一个无标记样例的标记结果一致,则在一定条件下该样例将被标记给另一个分类器作为新的训练样例。标准数据集上实验结果表明:R-tri-training能有效地利用无标记数据提高学习性能,且R-tri-training算法性能优于GILP(genetic inductive logic programming)、NFOIL、KFOIL和ALEPH。  相似文献   

6.
本文提出了基于半监督学习的行人检测方法,用以解决大量的无标记样本问题。在集成分类器的训练过程中,选择BP神经网络分类器、SVM分类器和KNN分类器作为3个子分类器,利用协同训练机制对各个子分类器进行协同训练。针对半监督学习中误标记样本问题,引入富信息策略和辅助学习策略消除训练过程引入的噪声,同时充分利用无标记样例,进而提高分类器的分类精度。通过对测试集和实时视频进行的行人检测实验,证明了本文方法的可行性和有效性。  相似文献   

7.
程险峰  李军  李雄飞 《计算机工程》2011,37(13):147-149
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。  相似文献   

8.
针对动态神经网络分类器训练时采样时间长、计算量大的问题,提出一种动态神经网络分类器的主动学习算法。根据主动学习AL(Active Learning)算法中一种改进型不确定性采样策略,综合考虑样本的后验概率及其与已标记样本间的相似性,标注综合评价得分值较小的样本,将其用于对网络分类器的训练。通过Sobol’敏感度分析法,神经网络适时地增加敏感度值较大或删减敏感度值较小的隐层神经元,以提高其学习速率,减小输出误差。分类器训练仿真实验结果表明,与被动学习算法相比,该算法能够大大缩短网络分类器训练时间,降低其输出误差。将该算法用于液压AGC系统中,实验结果表明,该算法可实现系统中PID控制器参数的在线调节,提高了厚度控制精度,以此验证了该算法的适用性。  相似文献   

9.
主动学习通过主动选择要学习的样例进行标注,从而有效地降低学习算法的样本复杂度。针对当前主动学习算法普遍采用的平分版本空间策略,本文提出过半缩减版本空间的策略,这种策略避免了平分版本空间策略所要求的较强假设。基于过半缩减版本空间的策略,本文实现了一种选取具有最大可能性被误分类的样例作为训练样例的启发式主动动学习算法(CBMPMS)。该算法计算版本空间中随机抽取的假设组成的委员会和当前学习器对样例预测的类概率差异的熵,以此作为选择样例的标准。针对UCI数据集的实验表明,该算法能够在大多数数据集上取得比相关研究更好的性能。  相似文献   

10.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

11.
面向不平衡数据集的机器学习分类策略   总被引:1,自引:0,他引:1       下载免费PDF全文
由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的研究策略。这些策略主要是立足于数据层面、分类模型改进层面来解决不平衡数据集分类难的困扰。从以上两个方面论述面向不平衡数据集分类问题的机器学习分类策略,分析和讨论了针对不平衡数据集机器学习分类器的评价指标,总结了不平衡数据集分类尚存在的问题,展望了未来能够深入研究的方向。特别的,这些讨论的研究主要关注类别极端不平衡场景下的二分类问题所面临的困难。  相似文献   

12.
Generally, collecting a large quantity of unlabeled examples is feasible, but labeling them all is not. Active learning can reduce the number of labeled examples needed to train a good classifier. Existing active learning algorithms can be roughly divided into three categories: single-view single-learner (SVSL) active learning, multiple-view single-learner (MVSL) active learning and single-view multiple-learner (SVML) active learning. In this paper, a new approach that incorporates multiple views and multiple learners (MVML) into active learning is proposed. Multiple artificial neural networks are used as learners in each view, and they are set with different numbers of hidden neurons and weights to ensure each of them has a different bias. The selective sampling of our proposed method is implemented in three different ways. For comparative purpose, the traditional methods MVSL and SVML active learning as well as bagging active learning and adaboost active learning are also implemented together with MVML active learning in our experiments. The empirical results indicate that the MVML active learning outperforms the other traditional methods.  相似文献   

13.
The paper presents a pilot research on the application of clinical decision support systems in a atrophic gastritis screening task. Two different DSS learning strategies have been tested – a standalone classifier and classifier ensemble application. Such classification algorithms as C4.5, CART, JRip and Naive Bayes were used as base classifiers. The classifiers were evaluated on the respondent medical data from an inquiry form, containing 28 attributes and 840 records. The dataset was preprocessed using simple methods in initial data analysis as well as more complex data mining methods for feature selection. The obtained results are summarized and discussed in order to summarize an information on what learning strategies are more applicable to the present dataset and should be studied in more detail in primary research.  相似文献   

14.
张立华  刘全  黄志刚  朱斐 《软件学报》2023,34(10):4772-4803
逆向强化学习(inverse reinforcement learning, IRL)也称为逆向最优控制(inverse optimal control, IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.  相似文献   

15.
图像超分辨率技术的回顾与展望   总被引:1,自引:0,他引:1  
图像超分辨率(SR)是计算机视觉中提高图像和视频分辨率的一类重要技术。近年来,得益于神经网络的成功,基于深度学习的图像超分辨率技术正在蓬勃发展,这无疑是超分辨率技术研究的主流方向。对超分辨率工作进行综述。首先,总结目前已有的超分辨率技术,根据其输入输出进行分类介绍;其次,将基于深度学习的单图像超分辨率技术分为有监督学习和无监督学习两类进行论述,并对部分具有代表性的最新超分辨率重建技术进行总结分类介绍;然后,讨论了超分辨率技术的相关问题,即性能评价指标、标准数据集,进而对几种典型算法进行实验对比;最后,对图像超分辨率算法未来的研究趋势进行展望。  相似文献   

16.
Classification of data with imbalanced class distribution has posed a significant drawback of the performance attainable by most standard classifier learning algorithms, which assume a relatively balanced class distribution and equal misclassification costs. The significant difficulty and frequent occurrence of the class imbalance problem indicate the need for extra research efforts. The objective of this paper is to investigate meta-techniques applicable to most classifier learning algorithms, with the aim to advance the classification of imbalanced data. The AdaBoost algorithm is reported as a successful meta-technique for improving classification accuracy. The insight gained from a comprehensive analysis of the AdaBoost algorithm in terms of its advantages and shortcomings in tacking the class imbalance problem leads to the exploration of three cost-sensitive boosting algorithms, which are developed by introducing cost items into the learning framework of AdaBoost. Further analysis shows that one of the proposed algorithms tallies with the stagewise additive modelling in statistics to minimize the cost exponential loss. These boosting algorithms are also studied with respect to their weighting strategies towards different types of samples, and their effectiveness in identifying rare cases through experiments on several real world medical data sets, where the class imbalance problem prevails.  相似文献   

17.
This paper approaches the relation classification problem in information extraction framework with different machine learning strategies, from strictly supervised to weakly supervised. A number of learning algorithms are presented and empirically evaluated on a standard data set. We show that a supervised SVM classifier using various lexical and syntactic features can achieve competitive classification accuracy. Furthermore, a variety of weakly supervised learning algorithms can be applied to take advantage of large amount of unlabeled data when labeling is expensive. Newly introduced random-subspace-based algorithms demonstrate their empirical advantage over competitors in the context of both active learning and bootstrapping.  相似文献   

18.
An active learner has a collection of data points, each with a label that is initially hidden but can be obtained at some cost. Without spending too much, it wishes to find a classifier that will accurately map points to labels. There are two common intuitions about how this learning process should be organized: (i) by choosing query points that shrink the space of candidate classifiers as rapidly as possible; and (ii) by exploiting natural clusters in the (unlabeled) data set. Recent research has yielded learning algorithms for both paradigms that are efficient, work with generic hypothesis classes, and have rigorously characterized labeling requirements. Here we survey these advances by focusing on two representative algorithms and discussing their mathematical properties and empirical performance.  相似文献   

19.
传统单标签挖掘技术研究中,每个样本只属于一个标签且标签之间两两互斥。而在多标签学习问题中,一个样本可能对应多个标签,并且各标签之间往往具有关联性。目前,标签间关联性研究逐渐成为多标签学习研究的热门问题。首先为适应大数据环境,对传统关联规则挖掘算法Apriori进行并行化改进,提出基于Hadoop的并行化算法Apriori_ING,实现各节点独立完成候选项集的生成、剪枝与支持数统计,充分发挥并行化的优势;通过Apriori_ING算法得到的频繁项集和关联规则生成标签集合,提出基于推理机的标签集合生成算法IETG。然后,将标签集合应用到多标签学习中,提出多标签学习算法FreLP。FreLP利用关联规则生成标签集合,将原始标签集分解为多个子集,再使用LP算法训练分类器。通过实验将FreLP与现有的多标签学习算法进行对比,结果表明在不同评价指标下所提算法可以取得更好的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号