首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

2.
针对流形学习用于监督分类时效果不尽人意的问题,提出了一种有监督的宏流形学习算法。算法根据给定的训练样本构造子流形,子流形沿着边界粘连构成父流形。在充分利用训练集的类别标签信息和类内近邻信息的基础上,计算出最优非线性映射函数,对训练样本的高维特征进行降维,同时利用非线性核回归技术处理样本外点学习问题,使降维后得到的低维嵌入更有利于分类。将提出的算法与多种经典降维算法在2个典型测试数据集,即21类地物数据集和UCI数据集,分别进行分类实验。实验结果表明所提出的算法能够取得更好的分类效果。  相似文献   

3.
基于核局部线性嵌入算法的图像去噪方法   总被引:1,自引:0,他引:1       下载免费PDF全文
徐春明 《计算机工程》2009,35(20):208-209
利用局部线性嵌入算法进行图像去噪时,如果局部近邻样本呈现非线性关系,图像去噪效果会受到影响。针对该问题,提出基于核局部线性嵌入算法的图像去噪方法。通过非线性核函数将样本映射到高维线性空间,在高维空间运用局部线性嵌入算法进行图像去噪。实验结果表明,该方法能有效地对高维非线性图像进行去噪,性能优于中值滤波算法和局部线性嵌入算法。  相似文献   

4.
零空间线性鉴别分析NLDA充分利用样本总类内离散度矩阵的零空间信息,能有效克服线性鉴别分析LDA的小样本问题.核方法通过非线性映射,将输入空间样本映射到高维特征空间,再在高维特征空间利用线性特征提取算法.因此,核方法属于非线性特征提取算法.文中结合LDA、NLDA和核方法的优点,引入了核零空间线性鉴别分析KNLDA,导出了KNLDA算法.该算法通过引入核函数,得到低维矩阵,有效避免了直接计算复杂的非线性映射函数,解决了高维类内离散度矩阵的维数灾难问题.同时,将KNLDA算法应用于人脸识别.基于ORL人脸数据库以及ORL与Yale混合人脸数据库的实验结果表明了KNLDA算法的有效性.  相似文献   

5.
基于核的可能性聚类算法   总被引:3,自引:3,他引:0  
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

6.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

7.
谱聚类能发现数据的非线性低秩结构,在模式识别等领域应用广泛.谱聚类与图模型、流形嵌入、积分算子理论等紧密相关,存在着潜在的联系,但相关理论尚缺乏系统的研究.文中首先从谱聚类的研究现状出发,介绍它的一般性问题,即再生核空间中的积分算子特征函数学习问题.然后讨论谱聚类与核主成分、核k-means算法、Laplacian特征映射、流形学习、判别分析之间的内在联系.进而简要分析NJW算法、Ncut算法、基于Nystrm方法的谱聚类算法、多尺度谱聚类算法以及多层谱聚类算法.最后总结存在的问题和未来的发展趋势.  相似文献   

8.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

9.
李鹏  刘力军  黄永东 《计算机科学》2021,48(z1):220-225
经典的谱聚类算法包含两个步骤.(1)谱嵌入过程:求解Laplacian矩阵的特征值分解,得到分类指示矩阵的连续松弛解.(2)后处理过程:对谱嵌入连续松弛矩阵应用k-means或者谱旋转,得到最终的二值指示矩阵.由于有用信息的丢失,这种单独求解步骤不能保证最佳聚类结果.同时,谱聚类算法在处理大规模数据集时,存在聚类精度低、数据相似度矩阵存储开销大和Laplacian矩阵特征值分解计算复杂度高的问题.已有的联合谱聚类算法使用标准正交矩阵逼近非标准正交簇指示矩阵,这会导致较大的逼近误差.为了克服这一缺点,提出用一个改进的标准正交簇指示矩阵代替非正交指示矩阵,得到一个新的联合谱嵌入和谱旋转的谱聚类算法.因为两个标准正交矩阵更容易最小化,所以提出的算法可以取得更好的性能.进一步通过地标点方法对原始数据集进行稀疏特征表示,提出一种基于地标表示的联合谱嵌入和谱旋转算法(LJSESR),解决了大规模数据谱聚类的高效求解问题.实验结果表明,提出的LJSESR算法具有可行性和有效性.  相似文献   

10.
基于核的K-均值聚类   总被引:17,自引:0,他引:17  
孔锐  张国宣  施泽生  郭立 《计算机工程》2004,30(11):12-13,80
将核学习方法的思想应用于K-均值聚类中,提出了一种核K-均值聚类算法,算法的主要思想是:首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,突出各类样本之间的特征差异,然后在这个核空间中进行K-均值聚类。同时还将一种新的核函数应用于核K-均值聚类中以提高算法的速度。为了验证算法的有效性,分别利用人工和实际数据进行K-均值聚类和核K-均值聚类,实验结果显示对于一些特殊的类分布数据,核K-均值聚类比K-均值聚类具有更好的聚类效果。  相似文献   

11.
针对谱聚类算法在解决高维、大数据量的聚类问题时出现的效率不高和准确率明显下降的问题进行了研究,并且在研究基础上结合最优投影理论和Nystr?m抽样提出了基于最优投影的半监督谱聚类算法(SSOP, Semi-supervised Spectral Clustering based on the optimal projection)。该算法从高内聚低耦合的聚类目标出发,根据少量的监督信息计算类内以及类间离散度求得最优投影方向,从而区分各属性的重要程度,在此基础上使用了Nystr?m抽样来降低特征分解时间复杂度以达到在提高聚类算法准确率的基础上提高算法的效率。实验结果表明,该方法能够有效的提高聚类的准确率和效率。  相似文献   

12.
目的 高光谱图像的高维特性和非线性结构给聚类任务带来了"维数灾难"和线性不可分问题,以往的工作将特征提取过程与聚类过程互相剥离,难以同时优化。为了解决上述问题,提出了一种新的嵌入式深度神经网络模糊C均值聚类方法(EDFCC)。方法 EDFCC算法为了提取更加有效的深层特征,联合优化高光谱图像的特征提取和聚类过程,将模糊C均值聚类算法嵌入至深度自编码器网络中,可以保持两任务联合优化的优势,同时利用深度自编码器网络降维以及逼近任意非线性函数的能力,逐步将原始数据映射到潜在特征空间,提取数据的深层特征。所提方法采用模糊C均值聚类算法约束特征提取过程,学习适用于聚类的高光谱数据深层特征,动态调整聚类指示矩阵。结果 实验结果表明,EDFCC算法在Indian Pines和Pavia University两个高光谱数据集上的聚类精度分别达到了42.95%和60.59%,与当前流行的低秩子空间聚类算法(LRSC)相比分别提高了3%和4%,相比于基于自编码器的数据聚类算法(AEKM)分别提高了2%和3%。结论 EDFCC算法能够从高光谱图像的高维光谱信息中提取更加有效的深层特征,提升聚类精度,并且由于EDFCC算法不需要额外的训练过程,大大提升了聚类效率。  相似文献   

13.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。  相似文献   

14.
聚类分析是数据挖掘领域中一个重要研究内容,谱聚类(Spectral Clustering, SC)由于具有计算简便,性能优越等特点,已经成为最流行的聚类算法之一。本文利用四类几何结构数据,对规范化割(Normalized Cut, NCUT)、稀疏子空间聚类(Sparse subspace clustering, SSC)和谱曲率聚类(Spectral Curvature Clustering, SCC)三种谱聚类算法进行了分析和比较。实验结果表明,针对本文实验数据三种算法的聚类结果各有差异,但每类数据都可以找到相对最有效的聚类算法,方便读者对算法的选择和使用。NCUT无法处理相交的数据,适用性较差,但对于不相交的二次曲线聚类精度较高,并且优于SSC和SCC算法;相比NCUT算法,SSC算法适用性较强,能够实现四类几何结构数据的聚类,但在聚类过程中常出现误分现象,导致聚类精度不高;与前两种算法相比,SCC算法具有适用性强,精度高等特点,能够实现四类几何结构数据有效聚类,尤其对于实验数据中“横”和“竖”两类点组成的十字,SCC算法能够得到较好的聚类结果,解决由于数据量大SSC算法无法处理的问题。此外,针对有数据间断的两条相交螺旋线聚类问题,本文在现有SCC算法基础上进行改进,结果表明,改进后算法能够有效地实现数据聚类,具有良好的实用性。最后,文章分析了现有SCC算法存在的不足,并指出进一步研究的方向。  相似文献   

15.
遗传优化的谱聚类方法研究   总被引:4,自引:2,他引:2       下载免费PDF全文
传统的谱聚类对初始化数据敏感,聚类结果随不同的初始输入数据而波动。针对上述问题,提出了一种基于遗传算法的谱聚类算法,该算法克服了谱聚类算法对初始数据的敏感性,得到较稳定的聚类结果。与遗传k均值和谱聚类算法相比,该算法在模拟数据和UCI数据集上获得了较好的聚类性能。  相似文献   

16.
针对谱聚类融合模糊C-means(FCM)聚类的蛋白质相互作用(PPI)网络功能模块挖掘方法准确率不高、执行效率较低和易受假阳性影响的问题,提出一种基于模糊谱聚类的不确定PPI网络功能模块挖掘(FSC-FM)方法。首先,构建一个不确定PPI网络模型,使用边聚集系数给每一条蛋白质交互作用赋予一个存在概率测度,克服假阳性对实验结果的影响;第二,利用基于边聚集系数流行距离(FEC)策略改进谱聚类中的相似度计算,解决谱聚类算法对尺度参数敏感的问题,进而利用谱聚类算法对不确定PPI网络数据进行预处理,降低数据的维数,提高聚类的准确率;第三,设计基于密度的概率中心选取策略(DPCS)解决模糊C-means算法对初始聚类中心和聚类数目敏感的问题,并对预处理后的PPI数据进行FCM聚类,提高聚类的执行效率以及灵敏度;最后,采用改进的边期望稠密度(EED)对挖掘出的蛋白质功能模块进行过滤。在酵母菌DIP数据集上运行各个算法可知,FSC-FM与基于不确定图模型的检测蛋白质复合物(DCU)算法相比,F-measure值提高了27.92%,执行效率提高了27.92%;与在动态蛋白质相互作用网络中识别复合物的方法(CDUN)、演化算法(EA)、医学基因或蛋白质预测算法(MGPPA)相比也有更高的F-measure值和执行效率。实验结果表明,在不确定PPI网络中,FSC-FM适合用于功能模块的挖掘。  相似文献   

17.
高冉  陈花竹 《计算机应用》2021,41(12):3645-3651
子空间聚类的目的是将来自不同子空间的数据分割到其本质上所属的低维子空间。现有的基于数据的自我表示和谱聚类的子空间聚类算法将该问题分为两个连续的阶段:首先从高维数据中学习数据的相似性矩阵,然后通过将谱聚类应用于所学相似性矩阵来推断数据的聚类隶属。通过定义一种新的数据自适应稀疏正则项,并将其与结构稀疏子空间聚类(SSSC)模型和改进的稀疏谱聚类(SSpeC)模型相结合,给出了一个新的统一优化模型。新模型利用数据的相似度和聚类指标的相互引导克服了SSpeC稀疏性惩罚的盲目性,并使得相似度具有了判别性,这有利于将不同子空间的数据分为不同类,弥补了SSSC模型只强制来自相同子空间的数据具有相同标签的缺陷。常用数据集上的实验结果表明,所提模型增强了聚类判别的能力,优于一些经典的两阶段法和SSSC模型。  相似文献   

18.
谱聚类算法是基于谱图分割理论的聚类方法,其对高维、非凸数据分布问题有很好的聚类效果。但对大规模数据问题的聚类,该方法存在着计算时间和存储空间等方面的瓶颈。本文给出了一个自适应的谱聚类并行算法,通过局部计算和异步循环通信并行方法,最大限度减少了并行谱聚类中数据通信次数,并通过计算与通信重叠策略,进一步降低了并行算法的通信开销。在并行算法实现中,将自主开发的最优预条件共轭梯度法并行求解器 PLOBPCG 用于谱聚类的特征降维。在中科院的“元”超级计算机上,通过对两类大规模数据聚类的测试表明,在 2048 核上的加速比接近线性加速,并行效率达到96%以上。  相似文献   

19.
传统的聚类方法是在数据空间进行,且聚类数据的维度较高.为了解决这两个问题,提出了一种新的二进制图像聚类方法——基于离散哈希的聚类(CDH).该框架通过L21范数实现自适应的特征选择,从而降低数据的维度;同时通过哈希方法将数据映射到二进制的汉明空间,随后,在汉明空间中对稀疏的二进制矩阵进行低秩矩阵分解,完成图像的快速聚类...  相似文献   

20.
李林珂  康昭  龙波 《计算机工程》2023,49(1):113-120+129
现有的多视角谱聚类算法大多只线性结合了各视角的基拉普拉斯矩阵,未考虑不同视角数据的差异性对最优拉普拉斯矩阵的影响,存在聚类性能受限的问题。提出一种基于黎曼几何均值与高阶拉普拉斯矩阵的谱聚类算法(RMMSC),挖掘多视角数据中的高阶连接信息与流形信息,提高最优拉普拉斯矩阵对各视角的信息利用率。按一定的权重线性结合数据单一视角的各阶拉普拉斯矩阵,得到每个视角的基拉普拉斯矩阵,通过低阶与高阶连接信息的结合使用,充分体现多视角数据集的全局结构。在此基础上,计算各视角基拉普拉斯矩阵的黎曼几何均值,将其作为最优拉普拉斯矩阵输入谱聚类算法,得到聚类结果。相比于传统矩阵算数均值的计算,基于黎曼流形的黎曼几何均值能够更好地恢复互补层数据的流形信息。实验结果表明,RMMSC在多组标准数据集上聚类效果优于ONMSC、MLAN、AMGL等算法。其中,在Flower17数据集上,精确度较基准算法ONMSC提高了2.14%,纯度提高了1.7%,且收敛性较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号