首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 484 毫秒
1.
多视图聚类是无监督学习领域研究热点之一,近年来涌现出许多优秀的多视图聚类工作,但其中大多数方法均假设各视图是完整的,然而真实场景下数据收集过程极容易发生缺失,造成部分视图不完整。同时,很多方法采取传统机器学习方法(即浅层模型)对数据进行特征学习,这导致模型难以挖掘高维数据内的复杂信息。针对以上问题,本文提出一种面向不完整多视图聚类的深度互信息最大化方法。首先利用深度自编码器挖掘各视图深层次的隐含特征,并通过最大化潜在表示间的互信息来学习各视图间的一致性知识。然后,对于不完整视图中的缺失数据,利用多视图的公共潜在表示进行补全。此外,本文采用一种自步学习策略对网络进行微调,从易到难地学习数据集中的样本,得到更加宜于聚类的特征表示。最后,在多个真实数据集上进行实验,验证了本文方法的有效性。  相似文献   

2.
挖掘多视图一致性是提升多视图聚类性能的关键,为更好地从多视图数据中学习一致性表示,提出一种新的多视图聚类算法OMTSC。OMTSC算法同时学习每个视图的聚类分配矩阵和特征嵌入,并将聚类分配矩阵分解为共享正交基矩阵和聚类编码矩阵。正交基矩阵可捕获并储存多视图一致性信息形成潜在聚类中心,经过加权融合的多视图聚类编码矩阵可更好地平衡不同视图的质量差异。引入基于二部图的协同聚类,实现正交基、聚类编码和特征嵌入3个矩阵的知识相互迁移,以提升多视图数据一致性和多样性,并利用特征嵌入的多样性最大化多视图一致性学习最优的潜在聚类中心,从而提高多视图聚类的性能。此外,基于群稀疏约束的特征嵌入可有效消除多视图数据中的噪声,提升算法的鲁棒性。在WikipediaArticles、COIL20和ORL数据集上的实验结果表明,与SC-Best、Co-Reg等先进的多视图聚类算法相比,OMTSC算法在ACC、NMI、ARI 3个评价指标上整体取得最优值,其中在COIL20和ORL数据集中的NMI评价指标均高于0.9。  相似文献   

3.
一种针对弱标记的直推式多标记分类方法   总被引:2,自引:1,他引:1  
多标记学习主要解决一个样本可以同时属于多个类别的问题,它广泛适用于图像场景分类、文本分类等任务.在传统的多标记学习中,分类器往往需要利用大量具有完整标记的训练样本才能获得较好的分类性能,然而,在很多现实应用中又往往只能获得少量标记不完整的训练样本.为了更好地利用这些弱标记训练样本,提出一种针对弱标记的直推式多标记分类方法,它可以通过标记误差加权来补全样本标记,同时也能更好地利用弱标记样本提高分类性能.实验结果表明,该方法在弱标记情况下的图像场景分类任务上具有较好的性能提高.  相似文献   

4.
在如今的大数据时代,多视图数据引起了越来越多的关注,对多视图聚类的假设是所有视图都是完整的,然而,这种假设在实际应用中很难得到满足。因此不完备多视图聚类是一个重要挑战。针对大规模的不完备多视图数据,考虑到其数据的特征,利用互补性和一致性,论文提出了一种基于非负矩阵分解的在线反向图正则化聚类方法,首先利用加权非负矩阵分解作为基础模型,考虑到缺失实例的影响,引入一个动态权重矩阵;其次,学习所有视图的潜在特征矩阵并得到一个共识矩阵;同时,考虑到挖掘数据的局部结构,在基础模型上增加反向图正则化项;最后,对于大规模的数据,分块处理多视图数据以减少内存需求。在四个真实的数据集上进行了大量实验证明了所提出的方法的有效性。  相似文献   

5.
生成式不完整多视图数据聚类   总被引:1,自引:0,他引:1  
基于自表示子空间聚类的多视图聚类引起越来越多的关注. 大多数现有算法假设每个样本的所有视图都可获得, 然而在实际应用中, 由于各种因素, 可能会导致某些视图缺失. 为了对视图不完整数据进行聚类, 本文提出了一种在统一框架下同时执行缺失视图补全和多视图子空间聚类的方法. 具体地, 缺失视图是由已观测视图数据约束的隐表示生成的. 此外, 多秩张量应用于挖掘不同视图之间的高阶相关性. 这样通过隐表示和高阶张量同时挖掘了不同视图以及所有样本(即使是不完整视图样本)之间的相关性. 本文使用增广拉格朗日交替方向最小化(AL-ADM)方法求解优化问题. 在真实数据集上的实验结果表明, 我们的方法优于最新的多视图聚类算法, 具有更好的聚类准确度和鲁棒性.  相似文献   

6.
在多标记学习中,每个样本都由一个实例表示,并与多个类标记相关联。现有的多标记学习算法大多是在全局利用标记相关性,即假设所有的样本共享不同类别标记之间的正相关性。然而,在实际应用中,不同的样本共享不同的标记相关性,标记间不仅存在正相关性,而且存在相互排斥的现象,即负相关性。针对这一问题,提出了基于局部正、负成对标记相关性的k近邻多标记分类算法PNLC。首先,对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,利用该标记关系计算最大后验概率对测试样例进行预测。实验结果表明,PNLC算法在yeast和image数据集上的分类准确率明显优于其他常用的多标记分类算法。  相似文献   

7.
异质信息网络(Heterogeneous Information Network,HIN)嵌入将复杂的异质信息映射到低维稠密的向量空间,有利于网络数据的计算和存储.现有的基于多视图的HIN嵌入方法考虑了节点之间的多种语义关系,但忽略了视图的不完整性.大多数视图存在数据缺失,直接融合多个不完整的视图会导致嵌入效果不佳.为此,文中提出了一种融合不完整多视图的HIN嵌入方法(Incomplete Multi-view Fusion Based HIN Embedding,IMHE).IMHE的关键思想是聚合其他视图的邻居以重建不完整的视图.由于不同的单视图描述的是同一个网络,因此其他视图中的邻居可以一定程度上恢复不完整视图的结构信息.IMHE首先在不同视图中生成节点序列,并利用多头注意力方法学习单视图嵌入.对于每个不完整视图,IMHE在其他视图中找到缺失节点的k阶邻居,然后将不完整视图中邻居的单视图嵌入聚合在一起,为缺失节点生成新的嵌入.最后使用多视图典型相关性分析方法获得节点的统一嵌入,同时提取多个视图的隐藏语义关系.在3个真实数据集上的实验结果表明,相比现有研究,该方法的嵌入性能有显著提升.  相似文献   

8.
处理复杂的多标记数据对于特征选择而言是一项挑战性任务.然而,现存的多标记特征选择方法存在三个问题未解决.首先,现有的多标记特征选择方法利用样例层流形正则化项保持样例的相似性结构或借助标签关联来指导特征选择,但两者对于特征选择的指导存在互补关系.其次,早期方法基于样例相似性所构造的近邻矩阵来探索标签关联,却忽略了成对标签本身的关联性.最后,早期方法整合多个未知变量,导致目标函数的求解变得困难.为解决上述问题,本文基于最小二乘回归模型构建经验损失函数,然后在目标函数中引入标签正则化项探索标签之间的关联,同时利用特征矩阵与重构稀疏系数矩阵的乘积表示预测标签并保留数据本身的局部几何结构.上述各项被整合在一个联合学习框架内.针对该学习框架,一套证明可收敛的优化方案被设计.在13个真实的多标记基准数据集上进行实验,实验结果验证了所提方法的有效性.  相似文献   

9.
标记分布学习(label distribution learning,LDL)是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。  相似文献   

10.
传统多视图学习通常假设样本在每个视图都是完整的,但是由于数据难以获取、设备故障、遮挡等因素,这一假设并不总能成立,而传统的多视图学习方法很难有效处理不完整多视图数据.目前,研究者们已经提出了一些不完整多视图学习的方法,但是这些方法没有充分利用样本类别信息,从而影响恢复后样本的判别性.因此,提出基于判别稀疏性表示的不完整多视图分类方法(IMVC-DSR).具体地,该方法假设缺失样本可用少量观测样本稀疏线性表示.同时,为了充分利用类别先验信息,增加恢复后样本的判别性,该方法鼓励相同类别样本之间相互表示,降低不同类别样本之间的相互表达.此外,该方法考虑到视图之间的相关关系,引入选择算子选出不同视图的相同样本,并约束相同样本在不同视图的线性表达具有一致性.最后,在公开的五组数据集上验证了所提方法IMVC-DSR的有效性.  相似文献   

11.
标记分布学习能有效求解多标记学习任务,然而分类器构造以获得大规模具有更强监督信息的标注为前提,在许多应用中难以满足。一种替代的方案是以标记增强的方式从传统逻辑形式的标注中挖掘出隐含的数值型标记的重要程度。现有的标记增强方法大多假设增强后的标记需要在所有示例上保持原有逻辑标记的相关性,不能有效保持局部标记相关性。基于粒计算理论,提出了一种适用于标记分布学习的粒化标记增强学习方法。该方法通过k均值聚类构造具有局部相关性语义的信息粒,并在粒的抽象层面上,分别在图上依据逻辑标记的特性和属性空间的拓扑性质完成粒内示例的标记转化。最后,将得到的标记分布在示例层面进行融合,得到描述整个数据集标记重要程度的数值型标记。大量比较研究表明,所提出的模型可以显著地提升多标记学习的性能。  相似文献   

12.
针对标签相关性的表征问题,提出一种基于三角距离相关性的标签分布学习算法。首先,构建距离映射矩阵,描述标签分布和特征矩阵之间的映射关系。其次,设计新的三角距离,以表征标签之间的相关性。最后,结合标签相关性,设计基于Kullback-Leibler散度的目标函数。在8个数据集上的实验结果表明,与8种主流算法相比,本文提出的算法在6个准确性指标上占优势。  相似文献   

13.
Multilabel classification via calibrated label ranking   总被引:3,自引:0,他引:3  
Label ranking studies the problem of learning a mapping from instances to rankings over a predefined set of labels. Hitherto existing approaches to label ranking implicitly operate on an underlying (utility) scale which is not calibrated in the sense that it lacks a natural zero point. We propose a suitable extension of label ranking that incorporates the calibrated scenario and substantially extends the expressive power of these approaches. In particular, our extension suggests a conceptually novel technique for extending the common learning by pairwise comparison approach to the multilabel scenario, a setting previously not being amenable to the pairwise decomposition technique. The key idea of the approach is to introduce an artificial calibration label that, in each example, separates the relevant from the irrelevant labels. We show that this technique can be viewed as a combination of pairwise preference learning and the conventional relevance classification technique, where a separate classifier is trained to predict whether a label is relevant or not. Empirical results in the area of text categorization, image classification and gene analysis underscore the merits of the calibrated model in comparison to state-of-the-art multilabel learning methods.  相似文献   

14.
多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习,是一个重要但未研究的问题.提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵;同时,利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于:仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明:在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.  相似文献   

15.
Bao  Jiachao  Wang  Yibin  Cheng  Yusheng 《Applied Intelligence》2022,52(6):6093-6105

As an effective method for mining latent information between labels, label correlation is widely adopted by many scholars to model multi-label learning algorithms. Most existing multi-label algorithms usually ignore that the correlation between labels may be asymmetric while asymmetry correlation commonly exists in the real-world scenario. To tackle this problem, a multi-label learning algorithm with asymmetry label correlation (ACML, Asymmetry Label Correlation for Multi-Label Learning) is proposed in this paper. First, measure the adjacency between labels to construct the label adjacency matrix. Then, cosine similarity is utilized to construct the label correlation matrix. Finally, we constrain the label correlation matrix with the label adjacency matrix. Thus, asymmetry label correlation is modeled for multi-label learning. Experiments on multiple multi-label benchmark datasets show that the ACML algorithm has certain advantages over other comparison algorithms. The results of statistical hypothesis testing further illustrate the effectiveness of the proposed algorithm.

  相似文献   

16.
比例标签数据作为弱标签数据中的一种,近年来受到了广泛关注。针对现实应用中所获取的比例标签数据存在噪声污染而标注困难的局限性,提出将多视角学习应用到不确定比例标签学习中以提高分类器的准确率和稳定性。首先,所提出的方法利用核方法映射多视角信息到特征空间以及引入超实例标签表示比例标签信息,在将多视角信息与比例标签信息结合的同时将不确定比例标签数据的局限性考虑在内,以此构建基于不确定比例标签信息的多视角学习模型;而后利用拉格朗日方法将目标模型转换为对偶形式求解,并引入一个迭代框架解决目标模型以获取多视角分类器。最后,将所提出的方法应用于文本分类的数据集,实验结果表明提出的方法比已有的单一视角比例标签学习方法更具优越性,具体表现在所提方法更高的分类准确率和更不易受数据噪声影响等方面。  相似文献   

17.
Tai F  Lin HT 《Neural computation》2012,24(9):2508-2542
We consider a hypercube view to perceive the label space of multilabel classification problems geometrically. The view allows us not only to unify many existing multilabel classification approaches but also design a novel algorithm, principal label space transformation (PLST), that captures key correlations between labels before learning. The simple and efficient PLST relies on only singular value decomposition as the key step. We derive the theoretical guarantee of PLST and evaluate its empirical performance using real-world data sets. Experimental results demonstrate that PLST is faster than the traditional binary relevance approach and is superior to the modern compressive sensing approach in terms of both accuracy and efficiency.  相似文献   

18.
联合嵌入式多标签分类算法   总被引:1,自引:0,他引:1  
刘慧婷  冷新杨  王利利  赵鹏 《自动化学报》2019,45(10):1969-1982
现有的一些多标签分类算法,因多标签数据含有高维的特征或标签信息而变得不可行.为了解决这一问题,提出基于去噪自编码器和矩阵分解的联合嵌入多标签分类算法Deep AE-MF.该算法包括两部分:特征嵌入部分使用去噪自编码器对特征空间学习得到非线性表示,标签嵌入部分则是利用矩阵分解直接学习到标签空间对应的潜在表示与解码矩阵.Deep AE-MF将特征嵌入和标签嵌入的两个阶段进行联合,共同学习一个潜在空间用于模型预测,进而得到一个有效的多标签分类模型.为了进一步提升模型性能,在Deep AE-MF方法中对标签间的负相关信息加以利用.通过在不同数据集上进行实验证明了提出Deep AE-MF方法的有效性和鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号