期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐美香孙福明李豪杰《中国图象图形学报》2015,20(2):237-244

目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。相似文献

2.

一种构建情感标签均衡语料库的主动学习算法

时雪峰康鑫廖萍任福继《计算机应用与软件》2021,38(7):265-270,349

为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果. 相似文献

3.

一种构建情感标签均衡语料库的主动学习算法

时雪峰康鑫廖萍任福继《计算机应用与软件》2021,38(7):265-270,349

为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果. 相似文献

4.

基于加权SVM主动学习的多标签分类

下载免费PDF全文

刘端阳邱卫杰《计算机工程》2011,37(8):181-182

样本标记是一个重要但又比较耗时的过程。得到一个多标签分类器需要大量的训练样本,而手工为每个样本创建多个标签会存在一定困难。为尽可能降低标记样本的工作量,提出一种加权决策函数的主动学习方法,该方法同时考虑训练样本的数量和未知样本的置信度,使得分类器能在最小的成本下最快地达到比较满意的分类精度。相似文献

5.

融合萤火虫方法的多标签懒惰学习算法

程玉胜钱坤王一宾赵大卫《计算机应用》2019,39(5):1305-1311

已有的多标签懒惰学习算法（IMLLA）在利用近邻标签时因仅考虑了近邻标签相关性信息，而忽略相似度的影响，这可能会使算法的鲁棒性有所降低。针对这个问题，引入萤火虫方法，将相似度信息与标签信息相结合，提出一种融合萤火虫方法的多标签懒惰学习算法（FF-MLLA）。首先，利用Minkowski距离来度量样本间相似度，从而找到近邻点；然后，结合标签近邻点和萤火虫方法对标签计数向量进行改进；最后，使用奇异值分解（SVD）与核极限学习机（ELM）进行线性分类。该算法同时考虑了标签信息与相似度信息从而提高了鲁棒性。实验结果表明，所提算法较其他的多标签学习算法有一定优势，并使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。相似文献

6.

基于SVM期望间隔的多标签分类的主动学习

刘端阳邱卫杰《计算机科学》2011,38(4):230-232

分类是数据挖掘领域研究中的核心技术之一。得到一个性能良好的分类器需要大量的训练样本,而对样本进行标记是一个十分消耗资源的过程,对多标签样本进行标记就更加困难。为了尽可能降低标记样本的成本,需要找出最能代表类别信息的样本。在基于SVM的分类方法中,分类器间隔越大,分类的精度就会越差。提出了一种基于期望间隔的主动学习方法,即依据当前分类器,选择最快缩小分类间隔的样本。通过实验证明,基于期望间隔的学习策略比基于决策值以及基于后验概率的策略有着更好的学习效果。相似文献

7.

基于平均期望间隔的多标签分类主动学习方法 总被引：1，自引：0，他引：1

下载免费PDF全文

刘端阳邱卫杰《计算机工程》2011,37(15):168-170

针对多标签主动学习速度较慢的问题,提出一种基于平均期望间隔的多标签分类的主动学习方法。计算支持向量机分类器中的期望间隔,并将其作为样本选择标准。实验结果表明,该方法在分类精度、Hamming Loss、Coverage等评价标准上优于基于决策值和后验概率等主动学习策略,能更好地评价未标记样本,有效提高分类精度和速度。相似文献

8.

基于球结构支持向量机的多标签分类的主动学习 总被引：1，自引：0，他引：1

蒋华戚玉顺《计算机应用》2012,32(5):1359-1361

为了实现数据的多标签分类,减少多标签训练样本开销,将球结构支持向量机与主动学习方法结合用于多标签分类,依据球重叠区域样本距离差值度确定样本类别,分析多标签分类特性,采用样本近邻方法更新分类器。实验结果表明,该方法可以用较少的训练样本获得更有效的分类结果。相似文献

9.

基于负相关性增强的不平衡多标签学习算法

程玉胜曹天成王一宾郑伟杰《计算机工程与科学》2021,43(9):1700-1710

由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能.通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能.在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相... 相似文献

10.

基于双向映射学习的多标签分类算法

王庆鹏高清维《计算机应用研究》2022,39(4):1030-1036

现有的多标签学习算法往往只侧重于实例空间到标签空间的正向投影,正向投影时由于特征维数降低所产生的实例空间信息丢失的问题往往被忽略。针对以上问题,提出一种基于双向映射学习的多标签分类算法。首先,利用实例空间到标签空间的正向映射损失建立线性多标签分类模型;然后,在模型中引入重构损失正则项构成双向映射模型,补偿由于正向映射时导致的鉴别信息的丢失;最后,将双向映射模型结合标签相关性和实例相关性充分地挖掘标签之间、实例之间的潜在关系,并利用非线性核映射提高模型对非线性数据的处理能力。实验结果表明,与近年来的其他几种方法相比,该方法在汉明损失、一次错误率和排序损失上的性能平均提升17.68%、17.01%、18.57%;在六种评价指标上的性能平均提升了12.37%,验证了模型的有效性。相似文献

11.

Multi-label active learning by model guided distribution matching

Nengneng GAO Sheng-Jun HUANG Songcan CHEN 《Frontiers of Computer Science》2016,10(5):845-855

Multi-label learning is an effective framework for learning with objects that have multiple semantic labels, and has been successfully applied into many real-world tasks. In contrast with traditional single-label learning, the cost of labeling a multi-label example is rather high, thus it becomes an important task to train an effectivemulti-label learning model with as few labeled examples as possible. Active learning, which actively selects the most valuable data to query their labels, is the most important approach to reduce labeling cost. In this paper, we propose a novel approach MADM for batch mode multi-label active learning. On one hand, MADM exploits representativeness and diversity in both the feature and label space by matching the distribution between labeled and unlabeled data. On the other hand, it tends to query predicted positive instances, which are expected to be more informative than negative ones. Experiments on benchmark datasets demonstrate that the proposed approach can reduce the labeling cost significantly. 相似文献

12.

弹性网络核极限学习机的多标记学习算法

下载免费PDF全文

王一宾裴根生程玉胜《智能系统学报》2019,14(4):831-842

将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于L2正则,导致模型缺乏稀疏性表达。同时,弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间使用径向基核函数映射;随后,对核极限学习机损失函数施加弹性网络正则项;最后,采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。相似文献

13.

基于类属属性约简的多标记学习

徐苏平杨习贝祁云嵩《计算机应用》2015,35(11):3218-3221

在多标记学习中,由于不同的标记可能会带有自身的一些特性,所以目前已经出现了基于标记类属属性的多标记学习算法LIFT.然而,类属属性的构建可能会增加属性向量的维度,致使属性空间存在冗余信息.为此,借助模糊粗糙集提出了一种能够进行类属属性约简的多标记学习算法FRS-LIFT,其包含4个步骤:类属属性构建、属性维度约简、分类模型训练和未知样本预测.在5个多标记数据集上的实验结果表明,该算法与LIFT算法相比,不仅能够降低类属属性维数,而且在5种多标记评价指标上均具有较好的实验效果. 相似文献

14.

基于Spark的多标签超网络集成学习

下载免费PDF全文

李航王进赵蕊《智能系统学报》2017,12(5):624-639

近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。相似文献

15.

增强学习标签相关性的多标签特征选择方法

滕少华卢建磊滕璐瑶张巍《计算机应用研究》2024,41(7)

针对现有多标签特征选择方法存在的两个问题：第一,忽略了学习标签相关性过程中噪声信息的影响;第二,忽略探索每个簇的综合标签信息,提出一种增强学习标签相关性的多标签特征选择方法。首先,对样本进行聚类,并将每个簇中心视为一个综合样本语义信息的代表性实例,同时计算其对应的标签向量,而这些标签向量体现了每个簇包含不同标签的重要程度;其次,通过原始样本和每个簇中心的标签级自表示,既捕获了原始标签空间中的标签相关性,又探索了每一个簇内的标签相关性;最后,对自表示系数矩阵进行稀疏处理,以减少噪声的影响,并将原始样本和每个簇代表性实例分别从特征空间映射到重构标签空间进行特征选择。在9个多标签数据集上的实验结果表明,所提的算法与其他方法相比具有更好的性能。相似文献

16.

Multi-task MIML learning for pre-course student performance prediction

Yuling MA Chaoran CUI Jun YU Jie GUO Gongping YANG Yilong YIN 《Frontiers of Computer Science》2020,14(5):145313

In higher education, the initial studying period of each course plays a crucial role for students, and seriously influences the subsequent learning activities. However, given the large size of a course’s students at universities, it has become impossible for teachers to keep track of the performance of individual students. In this circumstance, an academic early warning system is desirable, which automatically detects students with difficulties in learning (i.e., at-risk students) prior to a course starting. However, previous studies are not well suited to this purpose for two reasons: 1) they have mainly concentrated on e-learning platforms, e.g., massive open online courses (MOOCs), and relied on the data about students’ online activities, which is hardly accessed in traditional teaching scenarios; and 2) they have only made performance prediction when a course is in progress or even close to the end. In this paper, for traditional classroomteaching scenarios, we investigate the task of pre-course student performance prediction, which refers to detecting at-risk students for each course before its commencement. To better represent a student sample and utilize the correlations among courses, we cast the problem as a multi-instance multi-label (MIML) problem. Besides, given the problem of data scarcity, we propose a novel multi-task learning method, i.e., MIML-Circle, to predict the performance of students from different specialties in a unified framework. Extensive experiments are conducted on five real-world datasets, and the results demonstrate the superiority of our approach over the state-of-the-art methods. 相似文献

17.

基于结构性质保持和相关性学习的多标记分类算法

张其亮娄恒瑞居殿春《计算机应用研究》2022,39(4):1037-1042

现有的多标记学习技术大多只考虑了相关性学习问题而忽略了数据因变换而引起的结构性质不一致问题,导致原始特征数据的结构性质因映射变换发生改变,从而影响了模型的分类性能。为了解决这一问题,提出了基于结构性质保持和相关性学习的多标记分类算法。首先,构造了线性映射函数以实现特征空间与标记空间的映射;然后借鉴图正则化思想,引入基于特征数据的结构性质保持策略以降低特征数据因线性变换引起的结构性质差异;最后,针对标记数据引入基于标记对的相关性学习策略进一步优化算法参数,以提高模型的分类性能。在不同规模的标准数据集上进行测试,结果表明所提算法与一些流行的多标记分类算法相比具有更优的分类性能,验证了所提算法的有效性。相似文献

18.

基于用户身份特征的多标签分类算法

郑晓雪张大方刁祖龙《计算机应用》2017,37(6):1697-1701

目前对于智慧校园中的家校沟通,缺乏一种衡量和参考的方法。针对智慧校园中特有的聊天特点即存在明显的身份特征,提出了一种基于用户身份特征的多标签分类算法——Adaboost.ML。首先,新增加了启发式规则;然后,引入Adaboost.MH算法,同时摒弃了把数据集进行分片的概念;最后,直接利用单条数据作为分析的焦点,减少了由于时间片边缘带来的误差和推断时间,综合决策出聊天用户之间的关联关系。实验结果表明,与基于规则的启发式方法相比,所提算法在智慧校园数据集上的误报率、漏报率分别降低了53%、66%,同时在微信数据集上也具有良好的分类效果。该算法已应用到智慧校园项目中,能够迅速并准确地了解到家校沟通的情况。相似文献