首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

2.
将CFSFDP算法拓展到连续型模糊集和离散型模糊集上,提出了一种针对模糊混合数据的拓展型CFSFDP算法,将其命名为FMD-CFSFDP算法。FMD-CFSFDP算法将样本涵盖的经典信息拓展到了模糊集上,利用寻找密度峰值的方法对模糊样本进行聚类,这是一种建立在模糊集上针对模糊混合数据的基于密度的聚类算法。首先简单介绍了CFSFDP算法及其改进,给出了"模糊混合数据"的数学概念;然后结合传统模糊欧氏距离的概念,分别提出了误差更小的针对连续型模糊集与离散型模糊集的改进型欧氏距离,在此基础上,依托权值构建了针对混合型模糊数据的整体距离。参考CFSFDP算法的聚类步骤给出了FMD-CFSFDP算法的聚类步骤。随后,在不同样本量、不同指标数量、不同簇数、不同取数规则的条件下,对算法进行了随机模拟实验并对聚类结果进行了分析。最后分别总结了FMD-CFSFDP算法的优缺点,并在此基础上提出了改进方案,为今后深入研究提供了参考。  相似文献   

3.
4.
基于密度峰值优化的谱聚类算法   总被引:1,自引:0,他引:1  
针对经典谱聚类算法无法自适应确定聚类数目、以及在处理大数据量的聚类问题时效率不高的问题,本文提出了一种基于密度峰值优化的谱聚类算法。该方法首先计算数据对象的局部密度,以及每个数据对象与较其他数据对象的最小距离,并依据一定的规则自适应产生初始聚类中心,确定聚类数目。其次,使用Nystr?m抽样来降低特征分解的计算复杂度以达到提高谱聚类算法的效率。实验结果表明,本文方法能够准确地得到聚类数目,并且有效提高聚类的准确率和效率。  相似文献   

5.
深入分析了传统的基于密度的聚类方法的特点和存在的问题及讨论了基于密度聚类算法研究现状,提出了一种改进的基于密度分布函数的聚类算法.使用K最近邻(KNN)的思想度量密度以寻找当前密度最大点,即中心点.并使用区域比例,将类从中心点开始扩展,每次扩展的同时引入半径比例因子以发现核心点.再从该核心点的KNN扩展类,直至密度下降到中心点密度的给定比率时结束.给出了数个算法实例并与基于网格的共享近邻聚类(GNN)算法在聚类准确率和效率上进行了试验比较,试验表明该算法极大降低了基于密度聚类算法对参数的敏感性、改善了对高维密度分布不均数据集的聚类效果、提高了聚类准确率和效率.  相似文献   

6.
基于密度梯度的聚类算法研究   总被引:1,自引:0,他引:1  
陈治平  王雷  李志成 《计算机应用》2006,26(10):2389-2392
针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。  相似文献   

7.
谱图聚类算法研究进展   总被引:4,自引:0,他引:4  
近10多年来,关于谱图聚类的研究成果非常丰富,为了总结和理清这些工作之间的脉络关系,揭示最新的研究趋势,回顾和比较了典型的图割目标函数,以及这些目标函数的谱宽松解决方法,总结了谱聚类算法的本质.另外,讨论了谱图聚类的几个关键问题:相似图的构建方法、复杂性与扩充性、簇数估计、半监督谱学习等.最后,展望了谱图聚类算法的主要研究趋势,如探寻其理论解释,构建更贴切的相似图,通过学习筛选特征,应用实例化等.  相似文献   

8.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

9.
针对传统模糊C均值聚类算法和基于K-means++优化聚类中心的模糊C均值算法存在初始聚类中心敏感、聚类速度收敛慢、聚类算法需要人为给定聚类数目等缺陷,受密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)的启发,提出了基于密度峰值算法优化的模糊C均值聚类算法,自适应产生初始聚类中心,确定聚类数目,并优化算法收敛过程。实验结果表明,改进后的算法与传统模糊聚类C均值算法相比能够准确地得到簇的数目,性能有明显的提高,并加快算法的收敛速度,达到相对更好的聚类效果。  相似文献   

10.
针对SVM在对大规模数据分类时求解规模过大的问题,提出了一种缩减数据集以提高训练速度的方法。该算法的第一步利用基于密度的方法大致定位能代表某个局域的质点,然后用SVM训练缩减后的数据得到一组支持向量,第二步的训练数据由支持向量以及其所代表的样本点构成。仿真实验证明该算法在保证分类准确率的情况下能有效地提高分类速度。  相似文献   

11.
一种基于网格密度的自适应聚类分析算法   总被引:1,自引:0,他引:1  
在结合基于密度和基于网格的聚类算法优点的基础上,提出一种新的聚类算法.该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感,具有较低的时间和空间复杂性及较高的识别率.通过实验对该算法进行了性能比较和测试,显示了它在各方面的优越性.  相似文献   

12.
This paper presents an idea of clustering resolution. On the basis of the idea, fuzzy clustering algorithms based on resolution are deduced, which naturally comprise a set of clustering algorithms. Thus, c-means algorithm and fuzzy c-means algorithms are actually special examples in the set. As an application for codebook design in image compression based on vector quantization, fuzzy clustering algorithms based on multiresolution are developed, which are almost prior to conventional algorithms in all aspects.  相似文献   

13.
针对网格密度聚类算法存在的网格宽度和密度阈值难以确定以及聚类精度不高的缺陷,提出了一种参数自适应的网格密度聚类算法。定义了数据集标准化离散度的概念,运用数据集的自然分布信息自适应地计算出每一维较优的分割宽度,对不同的密度阈值统计其噪声样本对象的数量,绘制了噪声曲线,从噪声曲线中获得最佳的密度阈值,而且增加了类簇边缘处理技术,进一步提高了聚类的质量。仿真实验表明,改进后的算法可获得更好的聚类效果。  相似文献   

14.
杨洁  王国胤  王飞 《计算机应用》2017,37(11):3080-3084
2014年提出的密度峰值聚类算法,思想简洁新颖,所需参数少,不需要进行迭代求解,而且具有可扩展性。基于密度峰值聚类算法提出了一种网格聚类算法,能够高效地对大规模数据进行处理。首先,将N维空间粒化为不相交的长方形网格单元;然后,统计单元空间的信息,利用密度峰值聚类寻找中心点的思想确定中心单元,即中心网格单元被一些低局部密度的数据单元包围,而且与比自身局部密度高的网格单元的距离相对较大;最后,合并与中心网格单元相近网格单元,从而得出聚类结果。在UCI人工数据集上的仿真实验结果表明,所提算法能够较快得出聚类中心,有效处理大规模数据的聚类问题,具有较高的效率,与原始的密度峰值聚类算法相比,在不同数据集上时间损耗降低至原来的1/100~1/10,而精度损失维持在5%~8%。  相似文献   

15.
针对密度峰值聚类算法(DPC)不能自动确定聚类中心,并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题,设计了一种自动确定聚类中心的比较密度峰值聚类算法(ACPC).该算法首先利用距离的比较量来代替原距离参数,使潜在的聚类中心在决策图中更加突出;然后通过二维区间估计方法进行对聚类中心的自动选取,从而实现聚类过程...  相似文献   

16.
.基于网格梯度的多密度聚类算法*   总被引:1,自引:0,他引:1  
大多数现有的聚类算法都致力于发现任意形状、任意大小的类,但很难有效处理多密度的数据集。提出的算法利用网格聚类速度快的特点,先通过高斯平滑去除噪声,再采用网格梯度的思想找出隐藏在多密度数据集中的簇。算法在人工数据集上进行了实验,结果表明该算法能有效地去除噪声,发现多密度的簇,具有较好的聚类效果。  相似文献   

17.
针对基于密度的聚类方法不能发现密度分布不均的数据样本的缺陷,提出了一种基于代表点和点密度的聚类算法。算法通过检查数据库中每个点的k近邻来寻找聚类。首先选取一个种子点作为类的第一个代表点,其k近邻为其代表区域,如果代表区域中的点密度满足密度阈值,则将该点作为一个新的代表点,如此反复地寻找代表点,这些区域相连的代表点及其代表区域将构成一个聚类。实验结果表明,该算法能够发现任意形状、大小和密度的聚类。  相似文献   

18.
陈延伟  赵兴旺 《计算机应用》2022,42(8):2450-2460
密度聚类算法因具有对噪声鲁棒、能够发现任意形状的类等优点,得到了广泛的应用。然而,在实际应用中,这种算法面临着由于数据集中不同类的密度分布不均,且类与类之间的边界难以区分等导致聚类效果较差的问题。为解决以上问题,提出一种基于边界点检测的变密度聚类算法(VDCBD)。首先,基于给出的相对密度度量方法识别变密度类之间的边界点,以此增强相邻类的可分性;其次,对非边界区域的点进行聚类以找到数据集的核心类结构;接着,依据高密度近邻分配原则将检测到的边界点分配到相应的核心类结构中;最后,基于类结构信息识别数据集中的噪声点。在人造数据集和UCI数据集上与K-means、基于密度的噪声应用空间聚类(DBSCAN)算法、密度峰值聚类算法(DPCA)、有效识别密度主干的聚类(CLUB)算法、边界剥离聚类(BP)算法进行了比较分析。实验结果表明,所提算法可以有效解决类分布密度不均、边界难以区分的问题,并在调整兰德指数(ARI)、标准化互信息(NMI)、F度量(FM)、准确度(ACC)评价指标上优于已有算法;在运行效率分析中,当数据规模较大时,VDCBD运行效率高于DPCA、CLUB和BP算法。  相似文献   

19.
邱保志  程栾 《计算机应用》2018,38(9):2511-2514
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度的聚类方法(DBSCAN)、密度峰值聚类(DPC)算法以及拉普拉斯中心峰聚类(LPC)算法相比,ALPC具有自动确定聚类中心、无参数的特点,且具有较高的聚类精度。  相似文献   

20.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号