共查询到20条相似文献,搜索用时 15 毫秒
1.
标记分布学习(label distribution learning,LDL)是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。 相似文献
2.
标记分布学习能有效求解多标记学习任务,然而分类器构造以获得大规模具有更强监督信息的标注为前提,在许多应用中难以满足。一种替代的方案是以标记增强的方式从传统逻辑形式的标注中挖掘出隐含的数值型标记的重要程度。现有的标记增强方法大多假设增强后的标记需要在所有示例上保持原有逻辑标记的相关性,不能有效保持局部标记相关性。基于粒计算理论,提出了一种适用于标记分布学习的粒化标记增强学习方法。该方法通过k均值聚类构造具有局部相关性语义的信息粒,并在粒的抽象层面上,分别在图上依据逻辑标记的特性和属性空间的拓扑性质完成粒内示例的标记转化。最后,将得到的标记分布在示例层面进行融合,得到描述整个数据集标记重要程度的数值型标记。大量比较研究表明,所提出的模型可以显著地提升多标记学习的性能。 相似文献
3.
4.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性. 相似文献
5.
通过近邻样例类标记确定测试样例类标记的思想在多标记分类算法中取得了良好的效果。该类算法通过对训练集进行学习,建立训练样例类标记与其k个近邻样例中不同类标记样例个数的映射关系,然后用该映射关系预测测试样例的类标记。该类算法的不足是只考虑近邻样例中不同类别样例的个数与测试样例类标记的映射关系,忽略了近邻样例与测试样例的局部相关性。考虑训练样例类与近邻样例的局部相关性,建立起它们类别间的映射关系,预测测试样例类标记,提出ML-WKNN算法。实验表明,ML-WKNN能更好地处理多标记分类问题和自动图像标注问题。 相似文献
6.
在多标记学习中,每个样本都由一个实例表示,并与多个类标记相关联。现有的多标记学习算法大多是在全局利用标记相关性,即假设所有的样本共享不同类别标记之间的正相关性。然而,在实际应用中,不同的样本共享不同的标记相关性,标记间不仅存在正相关性,而且存在相互排斥的现象,即负相关性。针对这一问题,提出了基于局部正、负成对标记相关性的k近邻多标记分类算法PNLC。首先,对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,利用该标记关系计算最大后验概率对测试样例进行预测。实验结果表明,PNLC算法在yeast和image数据集上的分类准确率明显优于其他常用的多标记分类算法。 相似文献
7.
石杰 《计算机工程与应用》2015,51(10):132-136
一个样例的标记信息可能会对附近其他样例的学习提供有用信息,特别是在数据比较匮乏的情况下,利用已标记数据与未标记数据间的相关性,能够在一定程度上避免因数据不足所造成的误差。针对样例之间的相关性研究,提出基于局部标记信息的多标记学习算法,算法首先获取样例的局部标记信息,然后将样例的局部标记信息引入属性空间构造新的样例集合,并根据新的样例集合进行分类。实验结果表明,算法的分类性能得到较大提升,且优于其他常用多标记学习算法。 相似文献
8.
多标记学习(multi-label learning, MLL)任务处理一个示例对应多个标记的情况,其目标是学习一个从示例到相关标记集合的映射.在MLL中,现有方法一般都是采用均匀标记分布假设,也就是各个相关标记(正标记)对于示例的重要程度都被当作是相等的.然而,对于许多真实世界中的学习问题,不同相关标记的重要程度往往是不同的.为此,标记分布学习将不同标记的重要程度用标记分布来刻画,已经取得很好的效果.但是很多数据中却仅包含简单的逻辑标记而非标记分布.为解决这一问题,可以通过挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布,进而通过标记分布学习有效地提升预测精度.上述将原始逻辑标记提升为标记分布的过程,定义为面向标记分布学习的标记增强.首次提出了标记增强这一概念,给出了标记增强的形式化定义,总结了现有的可以用于标记增强的算法,并进行了对比实验.实验结果表明:使用标记增强能够挖掘出数据中隐含的标记重要性差异信息,并有效地提升MLL的效果. 相似文献
9.
在多标记学习中,特征选择是处理数据高维问题和提升分类性能的一种有效手段,然而现有特征选择算法大多是基于标记分布大致平衡这一假设,鲜有考虑标记分布不平衡的问题。针对这一问题,本文提出了一种边缘标记弱化的多标记特征选择算法(Multi-label feature selection algorithm with weakening marginal labels,WML),计算不同标记下正负标记的频数比率作为该标记的权值,然后通过赋权方式弱化边缘标记,将标记空间信息融入到特征选择的过程中,得到一组更为高效的特征序列,提升标记对样本描述的精确性。在多个数据集上的实验结果表明,本文算法具有一定优势,通过稳定性分析和统计假设检验进一步证明本文算法的有效性和合理性。 相似文献
10.
为了提高预测的准确性,文中结合机器学习中堆积(Stacking)集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL).算法构造两层模型框架,通过第一层结构将样本数据采用组合方式进行异态集成学习,融合各分类器的学习结果,将融合结果输入到第二层分类器,预测结果是带有置信度的标记分布.在专用数据集上的对比实验表明,HELA-LDL可以发挥各种算法在不同场景下的性能较优,稳定性分析进一步说明算法的有效性. 相似文献
11.
针对标记分布学习算法忽略标记相关性信息及数据存在异常和噪声值的情况,文中提出基于低秩表示的标记分布学习算法(LDL-LRR).利用特征空间的基线性表示样本信息,实现对原始特征空间数据的降维.将低轶表示(LRR)迁移至标记空间,对模型施加低秩约束,把握数据的全局结构.分别使用增广拉格朗日乘子法和拟牛顿法求解LRR和目标函数,再通过最大熵模型预测标记分布.在10个数据集上的对比实验表明,LDL-LRR性能良好,效果稳定. 相似文献
12.
标记分布是一种新的机器学习范式,能很好地解决某些标记多义性问题,可看作多标记的泛化。传统的单标记学习和多标记学习均可看作标记分布学习的特例。已有的标记分布学习算法中,基于算法改造的AA-KNN(Algorithm Adaptation-KNN)是一种高效的算法,但任何涉及K近邻求解问题的算法在处理不同数据集时,参数K值的选取都是一个难题,不同的K值得到的结果明显不同。基于此,将自然最近邻居的概念引入标记分布学习,提出一种新的标记分布学习方法。对数据集使用自然最近邻居搜索算法查找每个样本的自然邻居,取自然邻居的标记分布均值作为预测结果。搜索算法不需要人工设置任何参数,同时搜索算法是一种被动搜索,其自适应计算得到每个样本的邻居。在6个数据集上使用6个评价指标进行实验,结果表明,与AA-KNN相比,结合自然最近邻居的标记分布学习算法不仅避免了人工设置参数的问题,而且取得了更优的效果。 相似文献
13.
已有标记分布学习(LDL)算法在一定程度上破坏不同标记间的关联性及标记分布的整体结构,同时,大多仅以提升标记分布的预测性能为目的,忽略计算代价和噪声鲁棒性在实际应用中的重要性.为了缓解上述不足,文中提出基于局部协同表达的标记分布学习算法(LCR-LDL).在LCR-LDL中,一个未标记样本可被视作由该未标记样本邻域构建... 相似文献
14.
15.
目前大部分已经存在的多标记学习算法在模型训练过程中所采用的共同策略是基于相同的标记属性特征集合预测所有标记类别.但这种思路并未对每个标记所独有的标记特征进行考虑.在标记空间中,这种标记特定的属性特征对于区分其它类别标记和描述自身特性是非常有帮助的信息.针对这一问题,本文提出了基于标记特定特征和相关性的ML-KNN改进算法MLF-KNN.不同于之前的多标记算法直接在原始训练数据集上进行操作,而是首先对训练数据集进行预处理,为每一种标记类别构造其特征属性,在得到的标记属性空间上进一步构造L1-范数并进行优化从而引入标记之间的相关性,最后使用改进后的ML-KNN算法进行预测分类.实验结果表明,在公开数据集image和yeast上,本文提出的算法MLF-KNN分类性能优于ML-KNN,同时与其它另外3种多标记学习算法相比也表现出一定的优越性. 相似文献
16.
已有的多标记特征选择方法主要根据特征与标记之间的依赖度以及特征与特征之间的冗余度确定每个特征的重要度,然后根据重要度进行特征选择,常常忽略标记关系对特征选择的影响。针对上述问题,引入邻域互信息设计了基于标记补充的多标记特征选择算法(Multi-label feature selection algorithm based on label complementarity,MLLC),该算法将依赖度、冗余度以及标记关系作为特征重要度的评价要素,然后基于这3个要素重新设计特征重要度评估函数,使得选取的特征能够获得更佳的分类性能。最后,在6个多标记数据集上验证了MLLC算法的有效性和鲁棒性。 相似文献
17.
《计算机科学与探索》2016,(4):543-553
特征选择在传统的单标记问题中已经得到深入的研究,但是大多数传统的特征选择算法却无法用于多标记问题。这是因为多标记问题中的每一个数据样本都同时与多个类标相关联,此时需要设计新的指标来评价特征。并且由于多个类标之间通常存在一定的关联性,在设计特征选择算法时还需要对类标的结构进行建模以利用类标的关联信息。采用谱特征选择(spectral feature selection,SPEC)框架解决上述问题。SPEC所需的相似性矩阵和图结构由样本类标的Jaccard相似性来构建,它能反映类标间的关联性。此外,所提出的方法属于过滤器模型,它独立于分类算法且不需要将多标记问题转化为单标记问题来处理。在现实世界数据集上的实验验证了所提出算法的正确性和较好的性能。 相似文献
18.
19.
本文在对现有的几种局部标记算法进行分析的基础上,提出了一种有效标记算法,其运行时间为O(n)。它既保持了一般局部标记算法中运算时间的常量因子小和快速等特点,又弥补了现有局部标记算法的不足。 相似文献
20.
在多标记学习框架中,每个对象由一个示例(属性向量)描述,却同时具有多个类别标记.在已有的多标记学习算法中,一种常用的策略是将相同的属性集合应用于所有类别标记的预测中.然而,该策略并不一定是最优选择,原因在于每个标记可能具有其自身独有的特征.基于这个假设,目前已经出现了基于标记的类属属性进行建模的多标记学习算法LIFT.LIFT包含两个步骤:属属性构建与分类模型训练.LIFT首先通过在标记的正类与负类示例上进行聚类分析,构建该标记的类属属性;然后,使用每个标记的类属属性训练对应的二类分类模型.在保留LIFT分类模型训练方法的同时,考察了另外3种多标记类属属性构造机制,从而实现LIFT算法的3种变体——LIFT-MDDM,LIFT-INSDIF以及LIFT-MLF.在12个数据集上进行了两组实验,验证了类属属性对多标记学习系统性能的影响以及LIFT采用的类属属性构造方法的有效性. 相似文献