首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。  相似文献   

2.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

3.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

4.
样本标记是一个重要但又比较耗时的过程。得到一个多标签分类器需要大量的训练样本,而手工为每个样本创建多个标签会存在一定困难。为尽可能降低标记样本的工作量,提出一种加权决策函数的主动学习方法,该方法同时考虑训练样本的数量和未知样本的置信度,使得分类器能在最小的成本下最快地达到比较满意的分类精度。  相似文献   

5.
已有的多标签懒惰学习算法(IMLLA)在利用近邻标签时因仅考虑了近邻标签相关性信息,而忽略相似度的影响,这可能会使算法的鲁棒性有所降低。针对这个问题,引入萤火虫方法,将相似度信息与标签信息相结合,提出一种融合萤火虫方法的多标签懒惰学习算法(FF-MLLA)。首先,利用Minkowski距离来度量样本间相似度,从而找到近邻点;然后,结合标签近邻点和萤火虫方法对标签计数向量进行改进;最后,使用奇异值分解(SVD)与核极限学习机(ELM)进行线性分类。该算法同时考虑了标签信息与相似度信息从而提高了鲁棒性。实验结果表明,所提算法较其他的多标签学习算法有一定优势,并使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。  相似文献   

6.
分类是数据挖掘领域研究中的核心技术之一。得到一个性能良好的分类器需要大量的训练样本,而对样本进行标记是一个十分消耗资源的过程,对多标签样本进行标记就更加困难。为了尽可能降低标记样本的成本,需要找出最能代表类别信息的样本。在基于SVM的分类方法中,分类器间隔越大,分类的精度就会越差。提出了一种基于期望间隔的主动学习方法,即依据当前分类器,选择最快缩小分类间隔的样本。通过实验证明,基于期望间隔的学习策略比基于决策值以及基于后验概率的策略有着更好的学习效果。  相似文献   

7.
基于平均期望间隔的多标签分类主动学习方法   总被引:1,自引:0,他引:1       下载免费PDF全文
刘端阳  邱卫杰 《计算机工程》2011,37(15):168-170
针对多标签主动学习速度较慢的问题,提出一种基于平均期望间隔的多标签分类的主动学习方法。计算支持向量机分类器中的期望间隔,并将其作为样本选择标准。实验结果表明,该方法在分类精度、Hamming Loss、Coverage等评价标准上优于基于决策值和后验概率等主动学习策略,能更好地评价未标记样本,有效提高分类精度和速度。  相似文献   

8.
基于球结构支持向量机的多标签分类的主动学习   总被引:1,自引:0,他引:1  
蒋华  戚玉顺 《计算机应用》2012,32(5):1359-1361
为了实现数据的多标签分类,减少多标签训练样本开销,将球结构支持向量机与主动学习方法结合用于多标签分类,依据球重叠区域样本距离差值度确定样本类别,分析多标签分类特性,采用样本近邻方法更新分类器。实验结果表明,该方法可以用较少的训练样本获得更有效的分类结果。  相似文献   

9.
由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能.通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能.在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相...  相似文献   

10.
现有的多标签学习算法往往只侧重于实例空间到标签空间的正向投影,正向投影时由于特征维数降低所产生的实例空间信息丢失的问题往往被忽略。针对以上问题,提出一种基于双向映射学习的多标签分类算法。首先,利用实例空间到标签空间的正向映射损失建立线性多标签分类模型;然后,在模型中引入重构损失正则项构成双向映射模型,补偿由于正向映射时导致的鉴别信息的丢失;最后,将双向映射模型结合标签相关性和实例相关性充分地挖掘标签之间、实例之间的潜在关系,并利用非线性核映射提高模型对非线性数据的处理能力。实验结果表明,与近年来的其他几种方法相比,该方法在汉明损失、一次错误率和排序损失上的性能平均提升17.68%、17.01%、18.57%;在六种评价指标上的性能平均提升了12.37%,验证了模型的有效性。  相似文献   

11.
Multi-label learning is an effective framework for learning with objects that have multiple semantic labels, and has been successfully applied into many real-world tasks. In contrast with traditional single-label learning, the cost of labeling a multi-label example is rather high, thus it becomes an important task to train an effectivemulti-label learning model with as few labeled examples as possible. Active learning, which actively selects the most valuable data to query their labels, is the most important approach to reduce labeling cost. In this paper, we propose a novel approach MADM for batch mode multi-label active learning. On one hand, MADM exploits representativeness and diversity in both the feature and label space by matching the distribution between labeled and unlabeled data. On the other hand, it tends to query predicted positive instances, which are expected to be more informative than negative ones. Experiments on benchmark datasets demonstrate that the proposed approach can reduce the labeling cost significantly.  相似文献   

12.
王一宾    裴根生  程玉胜   《智能系统学报》2019,14(4):831-842
将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于L2正则,导致模型缺乏稀疏性表达。同时,弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间使用径向基核函数映射;随后,对核极限学习机损失函数施加弹性网络正则项;最后,采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。  相似文献   

13.
徐苏平  杨习贝  祁云嵩 《计算机应用》2015,35(11):3218-3221
在多标记学习中,由于不同的标记可能会带有自身的一些特性,所以目前已经出现了基于标记类属属性的多标记学习算法LIFT.然而,类属属性的构建可能会增加属性向量的维度,致使属性空间存在冗余信息.为此,借助模糊粗糙集提出了一种能够进行类属属性约简的多标记学习算法FRS-LIFT,其包含4个步骤:类属属性构建、属性维度约简、分类模型训练和未知样本预测.在5个多标记数据集上的实验结果表明,该算法与LIFT算法相比,不仅能够降低类属属性维数,而且在5种多标记评价指标上均具有较好的实验效果.  相似文献   

14.
李航  王进  赵蕊 《智能系统学报》2017,12(5):624-639
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。  相似文献   

15.
In higher education, the initial studying period of each course plays a crucial role for students, and seriously influences the subsequent learning activities. However, given the large size of a course’s students at universities, it has become impossible for teachers to keep track of the performance of individual students. In this circumstance, an academic early warning system is desirable, which automatically detects students with difficulties in learning (i.e., at-risk students) prior to a course starting. However, previous studies are not well suited to this purpose for two reasons: 1) they have mainly concentrated on e-learning platforms, e.g., massive open online courses (MOOCs), and relied on the data about students’ online activities, which is hardly accessed in traditional teaching scenarios; and 2) they have only made performance prediction when a course is in progress or even close to the end. In this paper, for traditional classroomteaching scenarios, we investigate the task of pre-course student performance prediction, which refers to detecting at-risk students for each course before its commencement. To better represent a student sample and utilize the correlations among courses, we cast the problem as a multi-instance multi-label (MIML) problem. Besides, given the problem of data scarcity, we propose a novel multi-task learning method, i.e., MIML-Circle, to predict the performance of students from different specialties in a unified framework. Extensive experiments are conducted on five real-world datasets, and the results demonstrate the superiority of our approach over the state-of-the-art methods.  相似文献   

16.
针对现有多标签特征选择方法存在的两个问题:第一,忽略了学习标签相关性过程中噪声信息的影响;第二,忽略探索每个簇的综合标签信息,提出一种增强学习标签相关性的多标签特征选择方法。首先,对样本进行聚类,并将每个簇中心视为一个综合样本语义信息的代表性实例,同时计算其对应的标签向量,而这些标签向量体现了每个簇包含不同标签的重要程度;其次,通过原始样本和每个簇中心的标签级自表示,既捕获了原始标签空间中的标签相关性,又探索了每一个簇内的标签相关性;最后,对自表示系数矩阵进行稀疏处理,以减少噪声的影响,并将原始样本和每个簇代表性实例分别从特征空间映射到重构标签空间进行特征选择。在9个多标签数据集上的实验结果表明,所提的算法与其他方法相比具有更好的性能。  相似文献   

17.
目前对于智慧校园中的家校沟通,缺乏一种衡量和参考的方法。针对智慧校园中特有的聊天特点即存在明显的身份特征,提出了一种基于用户身份特征的多标签分类算法——Adaboost.ML。首先,新增加了启发式规则;然后,引入Adaboost.MH算法,同时摒弃了把数据集进行分片的概念;最后,直接利用单条数据作为分析的焦点,减少了由于时间片边缘带来的误差和推断时间,综合决策出聊天用户之间的关联关系。实验结果表明,与基于规则的启发式方法相比,所提算法在智慧校园数据集上的误报率、漏报率分别降低了53%、66%,同时在微信数据集上也具有良好的分类效果。该算法已应用到智慧校园项目中,能够迅速并准确地了解到家校沟通的情况。  相似文献   

18.
目前多标签学习已广泛应用到很多场景中,在此类学习问题中,一个样本往往可以同时拥有多个类别标签。由于类别标签可能带有的特有属性(即类属属性)将更有助于标签分类,所以已经出现了一些基于类属属性的多标签学习算法。针对类属属性构造会导致属性空间存在冗余的问题,本文提出了一种多标签类属特征提取算法LIFT_RSM。该方法基于类属属性空间通过综合利用随机子空间模型及成对约束降维思想提取有效的特征信息,以达到提升分类性能的目的。在多个数据集上的实验结果表明:与若干经典的多标签算法相比,提出的LIFT_RSM算法能得到更好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号