首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

2.
潘振君  梁成  张化祥 《计算机应用》2021,41(12):3438-3446
针对多视图数据分析易受原始数据集噪声干扰,以及需要额外的步骤计算聚类结果的问题,提出一种基于一致图学习的鲁棒多视图子空间聚类(RMCGL)算法。首先,在各个视图下学习数据在子空间中的潜在鲁棒表示,并基于该表示得到各视图的相似度矩阵。随后,基于得到的多个相似度矩阵学习一个统一的相似度图。最后,通过对相似度图对应的拉普拉斯矩阵添加秩约束,确保得到的相似度图具有最优的聚类结构,并可直接得到最终的聚类结果。该过程在一个统一的优化框架中完成,能同时学习潜在鲁棒表示、相似度矩阵和一致图。RMCGL算法的聚类精度(ACC)在BBC、100leaves和MSRC数据集上比基于图的多视图聚类(GMC)算法分别提升了3.36个百分点、5.82个百分点和5.71个百分点。实验结果表明,该算法具有良好的聚类效果。  相似文献   

3.
子空间聚类(Subspace clustering)是一种当前较为流行的基于谱聚类的高维数据聚类框架.近年来,由于深度神经网络能够有效地挖掘出数据深层特征,其研究倍受各国学者的关注.深度子空间聚类旨在通过深度网络学习原始数据的低维特征表示,计算出数据集的相似度矩阵,然后利用谱聚类获得数据的最终聚类结果.然而,现实数据存在维度过高、数据结构复杂等问题,如何获得更鲁棒的数据表示,改善聚类性能,仍是一个挑战.因此,本文提出基于自注意力对抗的深度子空间聚类算法(SAADSC).利用自注意力对抗网络在自动编码器的特征学习中施加一个先验分布约束,引导所学习的特征表示更具有鲁棒性,从而提高聚类精度.通过在多个数据集上的实验,结果表明本文算法在精确率(ACC)、标准互信息(NMI)等指标上都优于目前最好的方法.  相似文献   

4.
子空间聚类(Subspace clustering)是一种当前较为流行的基于谱聚类的高维数据聚类框架.近年来,由于深度神经网络能够有效地挖掘出数据深层特征,其研究倍受各国学者的关注.深度子空间聚类旨在通过深度网络学习原始数据的低维特征表示,计算出数据集的相似度矩阵,然后利用谱聚类获得数据的最终聚类结果.然而,现实数据存在维度过高、数据结构复杂等问题,如何获得更鲁棒的数据表示,改善聚类性能,仍是一个挑战.因此,本文提出基于自注意力对抗的深度子空间聚类算法(SAADSC).利用自注意力对抗网络在自动编码器的特征学习中施加一个先验分布约束,引导所学习的特征表示更具有鲁棒性,从而提高聚类精度.通过在多个数据集上的实验,结果表明本文算法在精确率(ACC)、标准互信息(NMI)等指标上都优于目前最好的方法.  相似文献   

5.
子空间聚类(Subspace clustering)是一种当前较为流行的基于谱聚类的高维数据聚类框架.近年来,由于深度神经网络能够有效地挖掘出数据深层特征,其研究倍受各国学者的关注.深度子空间聚类旨在通过深度网络学习原始数据的低维特征表示,计算出数据集的相似度矩阵,然后利用谱聚类获得数据的最终聚类结果.然而,现实数据存在维度过高、数据结构复杂等问题,如何获得更鲁棒的数据表示,改善聚类性能,仍是一个挑战.因此,本文提出基于自注意力对抗的深度子空间聚类算法(SAADSC).利用自注意力对抗网络在自动编码器的特征学习中施加一个先验分布约束,引导所学习的特征表示更具有鲁棒性,从而提高聚类精度.通过在多个数据集上的实验,结果表明本文算法在精确率(ACC)、标准互信息(NMI)等指标上都优于目前最好的方法.  相似文献   

6.
子空间聚类(Subspace clustering)是一种当前较为流行的基于谱聚类的高维数据聚类框架.近年来,由于深度神经网络能够有效地挖掘出数据深层特征,其研究倍受各国学者的关注.深度子空间聚类旨在通过深度网络学习原始数据的低维特征表示,计算出数据集的相似度矩阵,然后利用谱聚类获得数据的最终聚类结果.然而,现实数据存在维度过高、数据结构复杂等问题,如何获得更鲁棒的数据表示,改善聚类性能,仍是一个挑战.因此,本文提出基于自注意力对抗的深度子空间聚类算法(SAADSC).利用自注意力对抗网络在自动编码器的特征学习中施加一个先验分布约束,引导所学习的特征表示更具有鲁棒性,从而提高聚类精度.通过在多个数据集上的实验,结果表明本文算法在精确率(ACC)、标准互信息(NMI)等指标上都优于目前最好的方法.  相似文献   

7.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

8.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。  相似文献   

9.
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。  相似文献   

10.
现有的多视图无监督特征选择方法大多存在以下问题:样本的相似度矩阵、不同视图的权重矩阵和特征的权重矩阵往往是预先定义的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,进而导致不能选出有用的特征。为解决上述问题,首先,在多视图模糊C均值聚类的基础上进行视图权重和特征权重的自适应学习,以同时实现特征选择并保证聚类性能;然后,在拉普拉斯秩约束下自适应地学习样本的相似度矩阵,并构建一个基于自适应学习的多视图无监督特征选择(ALMUFS)方法;最后,设计一种交替迭代优化算法对目标函数进行求解,并在8个真实数据集上将所提方法与6种无监督特征选择基线方法进行比较。实验结果表明,ALMUFS的聚类精度和F-measure优于其他方法,与自适应协作相似性学习(ACSL)相比,平均提高8.99和11.87个百分点;与ASVM(Adaptive Similarity and View Weight)相比,平均提高11.09和13.21个百分点,验证了所提方法的可行性和有效性。  相似文献   

11.
王治和  常筱卿  杜辉 《计算机应用》2021,41(5):1337-1342
针对近邻传播(AP)聚类算法对参数偏向参数(Preference)敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题,提出基于万有引力的自适应近邻传播聚类(GA-AP)算法。首先,在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优;其次,在全局寻优的基础上利用信息熵和自适应增强(AdaBoost)算法找到每个簇内正确聚类和错误聚类的样本点,并计算出这些样本点的权值,用计算出的权值更新对应的样本点,从而更新相似度、Preference取值、吸引度和隶属度,并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出,相比于基于自适应属性加权的近邻传播聚类(AFW_AP)算法、AP算法、K均值聚类(K-means)算法和模糊C均值(FCM)算法,所提算法的纯度(Purity)、F值(F-measure)和准确率(ACC)的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明,所提算法降低了对偏向参数的依赖,提高了聚类效果,特别是对于稀疏数据集的聚类结果的准确率。  相似文献   

12.
李文博  刘波  陶玲玲  罗棻  张航 《计算机应用》2023,(12):3662-3667
针对深度谱聚类模型训练不稳定和泛化能力弱等问题,提出L1正则化的深度谱聚类算法(DSCLR)。首先,在深度谱聚类的目标函数中引入L1正则化,使深度神经网络模型生成的拉普拉斯矩阵的特征向量稀疏化,并提升模型的泛化能力;其次,通过利用参数化修正线性单元激活函数(PReLU)改进基于深度神经网络的谱聚类算法的网络结构,解决模型训练不稳定和欠拟合问题。在MNIST数据集上的实验结果表明,所提算法在聚类精度(CA)、归一化互信息(NMI)指数和调整兰德系数(ARI)这3个评价指标上,相较于深度谱聚类算法分别提升了11.85、7.75和17.19个百分点。此外,所提算法相较于深度嵌入聚类(DEC)和基于对偶自编码器网络的深度谱聚类(DSCDAN)等算法,在CA、NMI和ARI这3个评价指标上也有大幅提升。  相似文献   

13.
仿射传播(Affinity propagation,AP)聚类算法是将所有待聚类对象作为潜在的聚类中心,通过对象之间传递的可靠性和有效性信息找到合适的聚类中心,从而计算出相应的聚类结果,但不适用子空间聚类。将粒度计算引入到仿射传播聚类算法中,提出属性与样本同步粒化的AP熵加权软子空间聚类算法(Entropy weighting AP algorithm for subspace clustering based on asynchronous granulation of attributes and samples,EWAP)。EWAP首先去除冗余属性,然后在每次聚类的迭代过程中修改属性的权重值。在满足一定条件迭代终止时,就会得到构成各兴趣度子空间的属性权重值,从而得到属性集的粒化结果以及相应的子空间聚类结果 。理论与实验证明EWAP算法既保留了AP算法的优点,又克服了该聚类算法不能进行子空间聚类的不足。  相似文献   

14.
多视图聚类能充分利用不同视图间数据的一致性和差异性,引起越来越多的关注。传统多视图聚类方法假设每个视图的数据都是完整的,然而在实际应用中,收集到的多视图数据常存在部分视图缺失的样本。为了对缺失多视图数据进行聚类分析,提出自适应图融合的缺失多视图聚类算法(IMC_AGF)。算法以两两视图间共有样本为瞄点构建样本-样本的相似度矩阵,学习其一致性知识,再利用两两视图间的互补性,用自适应图融合算法整合所有的相似度图,获取缺失多视图数据完整的相似度矩阵,然后进行谱聚类得到分类结果。实验结果表明,提出的算法优于与之比较的经典缺失多视图聚类方法。  相似文献   

15.
针对最小二乘回归子空间聚类算法存在的数据局部相关性信息缺失、系数矩阵稀疏性不足的缺点,提出局部约束加强的最小二乘回归子空间聚类算法.在原始的最小二乘回归子空间聚类算法的基础上加入数据局部相关性约束,使表示系数矩阵的块对角性质更明显.同时,提出相似度矩阵构造方法,有效提高类内相似度,降低类间相似度.实验表明文中算法可以有效提高聚类的精确度,从而验证算法有效可行.  相似文献   

16.
针对多核子空间谱聚类算法没有考虑噪声和关系图结构的问题,提出了一种新的联合低秩稀疏的多核子空间聚类算法(JLSMKC)。首先,通过联合低秩与稀疏表示进行子空间学习,使关系图具有低秩和稀疏结构属性;其次,建立鲁棒的多核低秩稀疏约束模型,用于减少噪声对关系图的影响和处理数据的非线性结构;最后,通过多核方法充分利用共识核矩阵来增强关系图质量。7个数据集上的实验结果表明,所提算法JLSMKC在聚类精度(ACC)、标准互信息(NMI)和纯度(Purity)上优于5种流行的多核聚类算法,同时减少了聚类时间,提高了关系图块对角质量。该算法在聚类性能上有较大优势。  相似文献   

17.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

18.
高冉  陈花竹 《计算机应用》2021,41(12):3645-3651
子空间聚类的目的是将来自不同子空间的数据分割到其本质上所属的低维子空间。现有的基于数据的自我表示和谱聚类的子空间聚类算法将该问题分为两个连续的阶段:首先从高维数据中学习数据的相似性矩阵,然后通过将谱聚类应用于所学相似性矩阵来推断数据的聚类隶属。通过定义一种新的数据自适应稀疏正则项,并将其与结构稀疏子空间聚类(SSSC)模型和改进的稀疏谱聚类(SSpeC)模型相结合,给出了一个新的统一优化模型。新模型利用数据的相似度和聚类指标的相互引导克服了SSpeC稀疏性惩罚的盲目性,并使得相似度具有了判别性,这有利于将不同子空间的数据分为不同类,弥补了SSSC模型只强制来自相同子空间的数据具有相同标签的缺陷。常用数据集上的实验结果表明,所提模型增强了聚类判别的能力,优于一些经典的两阶段法和SSSC模型。  相似文献   

19.
针对低秩表示(LRR)子空间聚类算法没有考虑数据局部结构,在学习中可能会造成局部相似信息丢失的问题,提出了一种基于Hessian正则化和非负约束的低秩表示子空间聚类算法(LRR-HN),用来探索数据的全局结构和局部结构。首先,利用Hessian正则化良好的推测能力来保持数据的局部流形结构,使数据局部拓扑结构的表达能力更强;其次,考虑到获得的系数矩阵往往有正有负,而负值往往没有实际意义的特点,引入非负约束来保证模型解的有效性,使其在数据局部结构描述上更有意义;最后,通过最小化核范数寻求数据全局结构的低秩表示,从而更好地聚类高维数据。此外,利用自适应惩罚的线性交替方向法设计了一种求解LRR-HN的有效算法,并在一些真实数据集上,采用正确率(AC)和归一化互信息(NMI)对所提出的算法进行了评估。在ORL数据集上聚类数目为20时的实验中,LRR-HN与LRR算法相比,AC和NMI分别提高了11%和9.74%;与自适应低秩表示(ALRR)算法相比,AC和NMI分别提高了5%和1.05%。实验结果表明,LRR-HN与现有的一些算法相比,AC和NMI均有较大的提升,有较好的聚类性能。  相似文献   

20.
针对最小二乘回归子空间聚类法在求解表示系数时忽略了样本相似度的不足,提出改进方法。基于样本相互重构的表示系数矩阵和样本相似度矩阵有很大的关联定义系数增强项,求解可以保持样本相似度的表示系数矩阵,提出系数增强最小二乘回归子空间聚类法。在8个标准数据集上的实验表明该方法可以提高最小二乘回归子空间聚类法的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号