首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
模糊C均值(fuzzy C-means,FCM)聚类算法是一种常用的基于目标函数最小化的聚类算法。目前已经提出了相当数量的聚类算法是对模糊C均值聚类算法的改进,例如AFCM算法、GK算法等。对最近发表的基于Bregman距离的模糊聚类算法进行了改进,通过在FCM模糊聚类框架中引入Total-Bregman距离提升了聚类算法的聚类性能。同时对基于Total-Bregman距离的模糊聚类算法的收敛性质进行了理论分析。实验部分对来自UCI数据库的几个数据集进行了聚类,证明了算法的有效性和收敛性。  相似文献   

2.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

3.
朱永红 《微机发展》2007,17(1):123-124
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

4.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

5.
聚类分析在机器学习、数据挖掘、生物DNA信息等方面都起着极为关键的作用。聚类算法从方法学上可分为扁平聚类和层谱聚类。扁平聚类通常将数据集分为K个并行社区,社区之间没有交集,但现实世界的社区之间多具有不同层次之间的包含关系,因而层谱聚类算法能对数据进行更精细的分析,提供更好的可解释性。而相比扁平聚类,层谱聚类研究进展缓慢。针对层谱聚类面临的问题,从对代价函数的选择、聚类结果衡量指标、聚类算法性能等方面入手,调研了大量的相关文献。其中聚类结果衡量指标主要有模块度、Jaccard指数、标准化互信息、树状图纯度等。扁平聚类算法中比较经典的算法有K-means算法、标签传播算法、DBSCAN算法、谱聚类算法等。层谱聚类算法可以进一步划分为分裂聚类算法和凝聚聚类算法,分裂层谱聚类算法有二分K-means算法和递归稀疏割算法,凝聚层谱聚类算法有经典的Louvain算法、BIRCH算法和近年来提出的HLP算法、PERCH算法及GRINCH算法。最后,进一步分析了这些算法的优缺点,并总结全文。  相似文献   

6.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

7.
聚类分析在数据挖掘领域中是一个非常重要的研究课题,该文阐述了聚类算法的基本原理和性能要求,并依据算法思想的不同把聚类算法分为五类,详细介绍了每一类的算法思想、优缺点及典型算法,有利于用户对聚类算法的选择和研究者对聚类算法的改进研究,最后探讨了聚类算法今后的发展趋势。  相似文献   

8.
一种大数据环境下的新聚类算法   总被引:2,自引:0,他引:2  
李斌  王劲松  黄玮 《计算机科学》2015,42(12):247-250
提出了一种新的聚类算法NGKCA,该算法克服了经典聚类算法检测率和稳定性的不足,适用于解决大数据环境下的聚类问题。NGKCA聚类算法包括4个阶段:首先利用谱聚类NJW算法对大数据集进行列降维和数据归一化处理,其次引入对初始值不敏感的粒子群算法对数据集进行行降维从而选出临时的聚类中心集,接着通过全局Kmeans算法对最佳聚类中心集进行聚类以获取聚类中心点,最后使用粒子群算法对聚类中心点进行调整进而获取最终的聚类划分。在一些著名的机器学习数据集和国际标准的网络安全数据集KDDCUP99上进行实验,结果表明:提出的算法比谱聚类、Kmeans、粒子群、全局Kmeans等常见算法具有更好的稳定性和更高的检测率,与全局Kmeans算法相比具有更优的时间复杂度。  相似文献   

9.
李金泽  徐喜荣  潘子琦  李晓杰 《计算机科学》2017,44(Z6):424-427, 450
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。  相似文献   

10.
传统的谱聚类算法对初始化敏感,针对这个缺陷,引入Canopy算法对样本进行“粗”聚类得到初始聚类中心点,将结果作为K-Means算法的输入,提出了一种基于Canopy和谱聚类融合的聚类算法(Canopy-SC),减少了传统谱聚类算法选择初始中心点的盲目性,并将其用于人脸图像聚类。与传统的谱聚类算法相比,Canopy-SC算法能够得到较好的聚类中心和聚类结果,同时具有更高的聚类精确度。实验结果表明了该算法的有效性和可行性。  相似文献   

11.
提出一种交叠分簇动态路由算法。新算法对现有分簇算法进行了两点改进。首先允许节点可以对多个分簇广播进行应答,从而将非交叠分簇改变为交叠分簇,网络拓扑也由树状结构变为纵向网状结构。其次允许同层的节点之间交换路由信息并建立路由,从而进一步增加了可选路径的条数。新算法克服了非交叠分簇算法只能得到一条最短路径的局限性,可同时得到多条可用路径。  相似文献   

12.
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。  相似文献   

13.
合成孔径雷达(简称SAR)自动目标识别(简称ATR)算法是一个标准的目标检测算法,该算法分为3级:Prescreener、Discriminator和Classifier,处于Prescreener级和Discriminator级之间的聚类算法对于检测算法的整体性能有重要的影响。为此首先介绍了常规聚类算法的聚类步骤,然后针对实际应用情况分析了常规算法在聚类过程中存在的问题,并从图像数据读取顺序和准聚类中心计算方法两个方面对聚类算法进行了改进,基于两幅实际SAR图像得到的聚类结果验证了聚类算法改进的有效性。  相似文献   

14.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

15.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:2,自引:1,他引:1  
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

16.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

17.
针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search,CS-PCA)。该算法,一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了约0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。  相似文献   

18.
面对复杂信息环境下的数据预处理需求,提出了一种可以处理混合属性数据集的双重聚类方法。这种双重聚类方法由双重近邻无向图的构造算法或其改进算法,基于分离集合并的双重近邻图聚类算法、基于宽度优先搜索的双重近邻图聚类算法、或基于深度优先搜索的双重近邻图聚类算法来实现。通过人工数据集和UCI标准数据集的仿真实验,可以验证,尽管这三个聚类算法所采用的搜索策略不同,但最终的结果是一致的。仿真实验结果还表明,对于一些具有明显聚类分布结构且无近邻噪声干扰的数据集,该方法经常能取得比K-means算法和AP算法更好的聚类精度,从而说明这种双重聚类方法具有一定的有效性。为进一步推广并在实际中发掘出该方法的应用价值,最后给出了一点较有价值的研究展望。  相似文献   

19.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

20.
针对传统的模糊C-均值聚类算法对初始聚类中心较敏感、易陷入局部最优的缺点,将粒子群优化算法和FCM算法相结合,提出一种改进的模糊聚类算法。该算法利用粒子群算法的全局搜索能力代替FCM算法寻找初始聚类中心,使其跳出局部最优,实现模糊聚类。主要从反映数据集分类的类内紧致性程度和类间分离性程度的角度考虑,重新设计适应度函数。实验结果表明,提出的算法在聚类正确率和有效性指标上有更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号