首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 343 毫秒
1.
目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。  相似文献   

2.
王莉莉  付忠良  陶攀  胡鑫 《计算机应用》2017,37(7):1994-1998
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。  相似文献   

3.
王莉莉  付忠良  陶攀  朱锴 《计算机应用》2017,37(8):2253-2257
针对超声图像样本冗余、不同标准切面因疾病导致的高度相似性、感兴趣区域定位不准确问题,提出一种结合特征袋(BOF)特征、主动学习方法和多分类AdaBoost改进算法的经食管超声心动图(TEE)标准切面分类方法。首先采用BOF方法对超声图像进行描述;然后采用主动学习方法选择对分类器最有价值的样本作为训练集;最后,在AdaBoost算法对弱分类器的迭代训练中,根据临时强分类器的分类情况调整样本更新规则,实现对多分类AdaBoost算法的改进和TEE标准切面的分类。在TEE数据集和三个UCI数据集上的实验表明,相比AdaBoost.SAMME算法、多分类支持向量机(SVM)算法、BP神经网络和AdaBoost.M2算法,所提算法在各个数据集上的G-mean指标、整体分类准确率和大多数类别分类准确率都有不同程度的提升,且比较难分的类别分类准确率提升最为显著。实验结果表明,在包含类间相似样本的数据集上,分类器的性能有显著提升。  相似文献   

4.
基于球结构支持向量机的多标签分类的主动学习   总被引:1,自引:0,他引:1  
蒋华  戚玉顺 《计算机应用》2012,32(5):1359-1361
为了实现数据的多标签分类,减少多标签训练样本开销,将球结构支持向量机与主动学习方法结合用于多标签分类,依据球重叠区域样本距离差值度确定样本类别,分析多标签分类特性,采用样本近邻方法更新分类器。实验结果表明,该方法可以用较少的训练样本获得更有效的分类结果。  相似文献   

5.
图像多分类主动学习方法   总被引:1,自引:0,他引:1       下载免费PDF全文
以决策速度快的决策导向非循环图支持向量机(Decision Directed Acyclic Graph Support Vector Machine)为基准分类器,结合主动学习的思想,提出了一种图像多分类主动学习方法。这种方法是一种半自动的图像语义分类方法,可以将图像分成多个语义类别。该方法在最近边界主动选择方法的基础上,提出一种基于质疑度的主动选择策略。这种策略将SVMactive中提出的最近邻SVM分类面选择的反馈样例策略延伸到多分类中,通过区别对待奇异样例和容易错分样例,减少了噪声数据对分类器的干扰,提高了分类的精度。  相似文献   

6.
提出了一种强化支持向量机方法,将支持向量机与强化学习结合,逐步对未知类别标记样本进行访问,根据对该样本分类结果正确与否的评价标记访问点的类别,并对当前的分类器进行更新,给出了更新分类器的规则。对模拟数据和真实数据分别进行了实验,表明该方法在保证分类精度的同时,大大降低了对已知类别标记的训练样本的数量要求,是处理已知类别标记样本获取困难的多类分类问题的一种有效的方法。  相似文献   

7.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

8.
医患纠纷类裁判文书的多标签分类是对其进行高效检索和管理的基础,然而,医患纠纷数据集的类别不平衡和标签共生现象直接影响到文书的多标签分类效果。为此,提出了一种重采样和集成学习相结合的文本多标签分类方案。该方案首先提出一种基于标签集合平均稀疏度的样本重采样算法,用于降低标签共生对重采样的影响,从而改善数据集的类别不平衡性;然后,提出一种基于集成学习的多标签分类算法,其基于重采样后的数据集分别训练出多个基分类器,并对各基分类器以一票否决的投票策略进行组合,从而进一步提升分类器的多标签分类效果。实验结果表明,提出的多标签分类方案不仅适用于医患纠纷类裁判文书,而且适用于其他存在类别不平衡和标签共生问题的文本数据集。  相似文献   

9.
霍纬纲  高小霞 《控制与决策》2012,27(12):1833-1838
提出一种适用于多类不平衡分布情形下的模糊关联分类方法,该方法以最小化AdaBoost.M1W集成学习迭代过程中训练样本的加权分类错误率和子分类器中模糊关联分类规则数目及规则中所含模糊项的数目为遗传优化目标,实现了AdaBoost.M1W和模糊关联分类建模过程的较好融合.通过5个多类不平衡UCI标准数据集和现有的针对不平衡分类问题的数据预处理方法实验对比结果,表明了所提出的方法能显著提高多类不平衡情形下的模糊关联分类模型的分类性能.  相似文献   

10.
在在线分类任务中经常会出现新类别,导致数据分布发生显著变化,使得已有分类器不再适用.如何识别新类以使分类器能适应其出现已成为在线分类亟待解决的问题.本文提出基于距离尺度学习的识别偏离型新类的算法用于解决该问题.该方法能在缺少先验知识的前提下自动识别新类,并较好地解决了样本间类别相似性同样本间距离不一致的问题,为分类器的自适应更新提供了关键技术.在多个数据集上的实验结果表明在客观新类出现后该方法能有效发现新类,可使更新后的分类器保持较高准确度,为实现适应新类的在线分类系统奠定坚实基础.  相似文献   

11.
图像分类任务是计算机视觉中的一个重要研究方向。组合多种特征在一定程度上能够使得图像分类准确度得到提高。然而,如何组合多种图像特征是一个悬而未决的难题。提出了一种基于多类多核学习的多特征融合算法,并应用到图像分类任务。算法在有效地利用多核学习自动选取对当前任务有价值特征的优势的同时,避免了在多核学习中将多类问题分解为多个二分问题。在图像特征表示方面,使用字典自学习方法。实验结果表明,提出的算法能够有效地提高图像分类的准确度。  相似文献   

12.
大部分数据流分类算法解决了数据流无限长度和概念漂移这两个问题。但是,这些算法需要人工专家将全部实例都标记好作为训练集来训练分类器,这在数据流高速到达并需要快速分类的环境中是不现实的,因为标记实例需要时间和成本。此时,如果采用监督学习的方法来训练分类器,由于标记数据稀少将得到一个弱分类器。提出一种基于主动学习的数据流分类算法,该算法通过选择全部实例中的一小部分来人工标记,其中这小部分实例是分类置信度较低的样本,从而可以极大地减少需要人工标记的实例数量。实验结果表明,该算法可以在数据流存在概念漂移情况下,使用较少的标记数据对数据流训练出分类器,并且分类效果良好。  相似文献   

13.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

14.
环境音分类是当前语音识别领域的研究热点。主动学习是利用未标记数据,在少量标记数据代价下提高监督学习算法的分类性能的方法。文中提出了熵优先采样(Entropy Priority Sampling,EPS)方法和简单不一致采样(Simple Disagreement Sampling,SDS)方法作为主动学习选择样本的策略。针对环境音数据,提取11维的CELP音频特征,采用单一分类器与EPS,SDS方法对不同标记训练样本比例下的分类实验结果进行了比较分析。结果表明,主动学习方法在标记样本数较少的情况下,能取得较好的分类效果,并且EPS方法的性能优于SDS方法。  相似文献   

15.
现有概念漂移处理算法在检测到概念漂移发生后,通常需要在新到概念上重新训练分类器,同时“遗忘”以往训练的分类器。在概念漂移发生初期,由于能够获取到的属于新到概念的样本较少,导致新建的分类器在短时间内无法得到充分训练,分类性能通常较差。进一步,现有的基于在线迁移学习的数据流分类算法仅能使用单个分类器的知识辅助新到概念进行学习,在历史概念与新到概念相似性较差时,分类模型的分类准确率不理想。针对以上问题,文中提出一种能够利用多个历史分类器知识的数据流分类算法——CMOL。CMOL算法采取分类器权重动态调节机制,根据分类器的权重对分类器池进行更新,使得分类器池能够尽可能地包含更多的概念。实验表明,相较于其他相关算法,CMOL算法能够在概念漂移发生时更快地适应新到概念,显示出更高的分类准确率。  相似文献   

16.
集成分类通过将若干个弱分类器依据某种规则进行组合,能有效改善分类性能。在组合过程中,各个弱分类器对分类结果的重要程度往往不一样。极限学习机是最近提出的一个新的训练单隐层前馈神经网络的学习算法。以极限学习机为基分类器,提出了一个基于差分进化的极限学习机加权集成方法。提出的方法通过差分进化算法来优化集成方法中各个基分类器的权值。实验结果表明,该方法与基于简单投票集成方法和基于Adaboost集成方法相比,具有较高的分类准确性和较好的泛化能力。  相似文献   

17.
分类回归树多吸引子细胞自动机分类方法及过拟合研究   总被引:1,自引:0,他引:1  
基于多吸引子细胞自动机的分类方法多是二分类算法,难以克服过度拟合问题,在生成多吸引子细胞自动机时如何有效地处理多分类及过度拟合问题还缺乏可行的方法.从细胞空间角度对模式空间进行分割是一种均匀分割,难以适应空间非均匀分割的需要.将CART算法同多吸引子细胞自动机相结合构造树型结构的分类器,以解决空间的非均匀分割及过度拟合问题,并基于粒子群优化方法提出树节点的最优多吸引子细胞自动机特征矩阵的构造方法.基于该方法构造的多吸引子细胞自动机分类器能够以较少的伪穷举域比特数获得好的分类性能,减少了分类器中的空盆数量,在保证分类正确率的同时改善了过拟合问题,缩短了分类时间.实验分析证明了所提出方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号