首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 656 毫秒
1.
聚类算法研究   总被引:165,自引:1,他引:165  
对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.  相似文献   

2.
基于k-means聚类算法的研究   总被引:4,自引:0,他引:4  
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义.  相似文献   

3.
《计算机工程》2018,(4):35-40
针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。  相似文献   

4.
研究数据挖掘,优化聚类循序算法,针对提高分类的效率和准确性难题,传统聚类算法不能自动聚类的问题,为提高聚类算法的收敛速度和寻优精度,提出了一种改进的自动聚类算法,从分析基因表达式编程和k均值算法的特点出发,融合了两种算法优点,实现了在未知簇划分信息的情况下对数据集自动进行聚类分析.实践中选择k-均值算法和改进算法对聚类进行了仿真检验.结果表明,将改进的自动聚类算法应用于GIS物流选址优化中,与传统聚类算法相比,改进的算法不仅具有比较快的收敛速度和聚类精度,而且使得聚类结果更有参考价值.  相似文献   

5.
聚类分析是数据挖掘的核心技术。本文对大型数据库中的聚类方法作了分析,并对聚类分析进行了分类,列举了每类中的典型的聚类算法,以便于人们更容易、更快捷地找到适用于特定问题的聚类方法;最后提及到了将聚类方法应用于大型数据库的相关技术、基本准则以及以后的研究方向。  相似文献   

6.
分布式环境中聚类问题算法研究综述   总被引:1,自引:0,他引:1  
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。  相似文献   

7.
对切换回归模型的聚类方法一般都没有考虑到噪音的影响,因此在含有噪音数据的情况下,用这些方法聚类的结果就会出现一定的偏差.为了减弱聚类过程中噪音数据的影响,提出了一种新的具有抵抗噪音能力的聚类算法,称为抗噪音聚类算法.该算法通过将已知数据集划分为非噪音数据集和噪音数据集2个子集,然后对非噪音数据集进行聚类分析,估计出模型的各个参数.通过对噪音数据集和非噪音数据集进行不断地调整,同时不断地修正得到的参数估计值,从而得到对聚类结果的优化.实验表明,抗噪音聚类算法能够有效地克服噪音数据对聚类结果的影响,并估计出优质的参数.  相似文献   

8.
基于K-means算法思想改进蚁群聚类算法聚类规则,提出一种新的K-means蚁群聚类算法,并通过实验验证其聚类效果;引入具有全局最优性的支持向量机SVM,取各类中心附近适当数据训练支持向量机,然后利用已获模型对整个数据集进行重新分类,进一步优化聚类结果,使聚类结果达到全局最优。UCI数据集实验结果表明,新的算法可以明显提高聚类质量。  相似文献   

9.
提出了一种改进的聚类分析算法,该算法采用类似中间聚类与最终聚类分布的思想,先对密集区域进行聚类,形成了K个聚类,然后再对相对分散的自由数据进行K—means聚类,使聚类分析在迭代过程中始终沿着最优的方向进行,减小了迭代次数,提高了收敛速度。该算法融合了网格聚类与K-均值聚类的优点,并且引入了一种新的划分网格的算法和新的计算密度阀值的函数。理论分析以及实验证明,改进算法的聚类过程达到了令人满意的效果。  相似文献   

10.
多尺度的谱聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种多尺度的谱聚类算法。与传统谱聚类算法不同,多尺度谱聚类算法用改进的k-means算法对未经规范的Laplacian矩阵的特征向量进行聚类。与传统k-means算法不同,改进的k-means算法提出一种新颖的划分数据点到聚类中心的方法,通过比较聚类中心与原点的距离和引入尺度参数来计算数据点与聚类中心的距离。实验表明,改进算法在人工数据集上取得令人满意的结果,在真实数据集上聚类结果较优。  相似文献   

11.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

12.
指定K个聚类的多均值聚类算法在K-均值算法的基础上设置了多个次类,以改善K-均值算法在非凸数据集上的劣势,并将多均值聚类问题形式化为优化问题,可以得到更优的聚类效果。但是该算法对初始原型敏感,且随机选取原型的方式使聚类结果不稳定。针对上述问题,提出一种稳定的K-多均值聚类算法,并对该算法的复杂度与收敛性进行了简要讨论。该算法先基于数据样本的最邻近关系构造图,根据图的连通分支将数据分为若干组,取每组数据的均值点作为初始原型,再用交替迭代的方法对优化问题进行求解,得到最后的聚类结果。在人工数据集和真实数据集上的实验表明,该算法具有更稳定更优越的聚类效果。  相似文献   

13.
Discovering interesting patterns or substructures in data streams is an important challenge in data mining. Clustering algorithms are very often applied to identify single substructures although they are designed to partition a data set. Another problem of clustering algorithms is that most of them are not designed for data streams. This paper discusses a recently introduced procedure that deals with both problems. The procedure explores ideas from cluster analysis, but was designed to identify single clusters without the necessity to partition the whole data set into clusters. The new extended version of the algorithm is an incremental clustering approach applicable to stream data. It identifies new clusters formed by the incoming data and updates the data space partition. Clustering of artificial and real data sets illustrates the abilities of the proposed method.  相似文献   

14.
熊伟超  蒋瑜 《计算机应用研究》2023,40(10):3053-3058
针对LF蚁群聚类算法没有区分数据集属性重要度、算法效率低和聚类效果不稳定的问题,提出一种基于熵权的全局记忆LF算法(weighted global ant colony optimization, WGACO)。该算法首先通过熵权法计算各属性熵权,修改欧氏距离计算公式,以提升聚类精度;使用权重最大的属性值对数据对象进行初始化,增强聚类效果的稳定性;引入全局记忆矩阵减少蚂蚁的无效移动,提升算法效率;加入算法的收敛条件,提升算法实用性。选取UCI数据库中的7个真实数据集和3个人工生成的数据集进行数值实验,并与GMACO、SMACC、ILFACC三种改进LF的算法进行比较,实验结果表明,所提算法在精度、算法效率和稳定性上都有比较好的提升,在处理高维数据上也有较好的表现。最后,WGACO在商场会员用户细分上表现良好,体现了其实用价值。  相似文献   

15.
徐晓  丁世飞  丁玲 《软件学报》2022,33(5):1800-1816
密度峰值聚类(density peaks clustering, DPC)算法是聚类分析中基于密度的一种新兴算法, 该算法考虑局部密度和相对距离绘制决策图, 快速识别簇中心, 完成聚类. DPC具有唯一的输入参数, 且无需先验知识, 也无需迭代. 自2014年提出以来, DPC引起了学者们的极大兴趣, 并得到了快速发展...  相似文献   

16.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

17.
针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。  相似文献   

18.
为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。  相似文献   

19.
李金泽  徐喜荣  潘子琦  李晓杰 《计算机科学》2017,44(Z6):424-427, 450
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号