首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
传统基于划分的聚类算法需要人工给定聚类数,且由于算法采取刚性划分,可能会导致将较大或延伸状的聚类簇分割的现象,导致错误的聚类结果。密度峰聚类是近年提出的一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,且能够发现非球形簇。将密度峰思想引入基于划分的聚类算法,提出一种基于密度峰和划分的快速聚类算法(DDBSCAN),该算法首先获取一组簇的核心对象(密度峰),用于描述簇的“骨骼”,而后将周围的点划分到最近的核心对象,最后通过判断划分边界处的密度情况合并簇。实验证明,该算法能有效地适应任意形状、大小不一的数据集,与传统基于密度的聚类算法相比收敛速度更快。  相似文献   

2.
一种基于密度的快速聚类方法   总被引:2,自引:1,他引:1  
具有噪声的基于密度的聚类方法(Density based spatial clustering of applications with noise, DBSCAN)在数据规模上的扩展性较差。本文在其基础 上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast density based spat ial clustering of applications with noise, F DBSCAN),对核心对象邻域中的对象只 作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对 边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域 的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和 真实数据集,验证其聚类效果及算法效率。实验表明F DBSCAN算法不仅保证了有良好的聚 类效果及算法效率,并且在数据规模上具有良好的扩展性。  相似文献   

3.
提出了一种启发式选择边界对象的快速空间聚类算法DBSB,通过一个启发式函数近似选择相对于某个已知核心对象边界区域中的核心对象和边界对象,通过核心对象的序列来快速地扩展它们所在的簇,直至找到一些较小的簇。在此基础上再通过边界对象快速地合并某些簇,即该算法通过两步聚类,达到最终的聚类。理论分析和实验结果表明该算法有效可行。  相似文献   

4.
张腾飞  陈龙  李云 《控制与决策》2013,28(10):1479-1484

粗糙??-means 聚类算法是一种有效的处理聚类边界模糊问题的算法, 但大多数算法对簇的下近似集和边界 中的对象使用统一的权值, 忽略了簇内对象之间的差异性. 针对这一问题提出一种新的改进算法, 通过对簇内的每个 对象加入簇内不平衡度量, 以区分不同对象对簇的贡献程度, 使得聚类结果簇内更紧凑、簇间更疏远. 不同数据集的 仿真实验结果表明, 所提出算法可以有效提高聚类结果的精度.

  相似文献   

5.
数据挖掘中基于密度和距离聚类算法设计   总被引:1,自引:0,他引:1  
田地  王世卿 《微机发展》2006,16(10):49-51
介绍聚类分析的基本概念,并说明了关于聚类分析相关研究工作。对聚类、数据对象、对象的密度、簇的密度、距离和ε-邻域等基本概念进行了描述。在此基础上提出并分析了基于密度和距离聚类算法,并与其他聚类方法作了比较,显示了其优越性。  相似文献   

6.
粗糙K-means聚类算法是一种有效的处理聚类边界模糊问题的算法,但大多数算法对簇的下近似集和边界中的对象使用统一的权值,忽略了簇内对象之间的差异性。针对这一问题提出一种新的改进算法,通过对簇内的每个对象加入簇内不平衡度量,以区分不同对象对簇的贡献程度,使得聚类结果簇内更紧凑、簇间更疏远。不同数据集的仿真实验结果表明,所提出算法可以有效提高聚类结果的精度。  相似文献   

7.
为解决不平衡数据在传统处理方法中容易出现数据的过拟合和欠拟合问题,提出基于统计信息聚类边界的不平衡数据分类方法.去除数据中噪声点,根据数据对象的k距离设定邻域半径,利用对象邻域范围内的k距离统计信息寻找边界点与非边界点;将少数类中的边界点作为样本,采用SMOTE算法进行过采样,对多数类采用基于距离的欠采样删除远离边界的点,得到平衡数集.通过实验结果对比,验证了该算法的G-mean值与F-value值都有提高.  相似文献   

8.
数据挖掘中基于密度和距离聚类算法设计   总被引:2,自引:0,他引:2  
介绍聚类分析的基本概念,并说明了关于聚类分析相关研究工作。对聚类、数据对象、对象的密度、簇的密度、距离和ε-邻域等基本概念进行了描述。在此基础上提出并分析了基于密度和距离聚类算法,并与其他聚类方法作了比较,显示了其优越性。  相似文献   

9.
针对数据集中数据分布密度不均匀以及存在噪声点,噪声点容易导致样本聚类时产生较大的偏差问题,提出一种基于网络框架下改进的多密度SNN聚类算法。网格化递归划分数据空间成密度不同的网格,对高密度网格单元作为类簇中心,利用网格相对密度差检测出在簇边界网格中包含噪声点;使用改进的SNN聚类算法计算边界网格内样本数据点的局部密度,通过数据密度特征分布对噪声点进行类簇分配,从而提高聚类算法的鲁棒性。在UCI高维的数据集上的实验结果表明,与传统的算法相比,该算法通过网格划分数据空间和局部密度峰值进行样本类簇分配,有效地平衡聚类效果和时间性能。  相似文献   

10.
密度聚类是数据挖掘和机器学习中最常用的分析方法之一,无须预先指定聚类数目就能够发现非球形聚类簇,但存在无法识别不同密度的相邻聚类簇等问题。采用逆近邻和影响空间的思想,提出一种密度聚类分析算法。利用欧氏距离计算数据对象的K近邻与逆近邻,依据逆近邻识别其核心对象,并确定其核心对象的影响空间;利用逆近邻和影响空间,重新定义密度聚类簇扩展条件,并通过广度优先遍历搜索核心对象的影响空间,形成密度聚类簇,有效解决了无法区分不同密度相邻聚类簇等不足,提高了密度聚类分析效果和效率。基于UCI和人工数据集实验验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号