首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一个基于DBSCAN聚类算法的实现   总被引:4,自引:0,他引:4  
谭勇  荣秋生 《计算机工程》2004,30(13):119-121
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

2.
针对K中心点算法的初始聚类中心可能过于临近、代表性不足、稳定性差等问题,提出一种改进的K中心点算法。将样本集间的平均距离与样本间的平均距离的比值作为样本的密度参数,精简了高密度点集合中候选代表点的数量,采用最大距离乘积法选择密度较大且距离较远的K个样本作为初始聚类中心,兼顾聚类中心的代表性和分散性。在UCI数据集上的实验结果表明,与传统K中心点算法和其他2种改进聚类算法相比,新提出的算法不仅聚类结果更加准确,同时也具有更快的收敛速度和更高的稳定性。  相似文献   

3.
针对传统K—means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题,结合密度法和最大化最小距离的思想,提出基于最近高密度点间的垂直中心点优化初始聚类中心的K—means聚类算法。该算法选取相互间距离最大的K对高密度点,并以这足对高密度点的均值作为聚类的初始中心,再进行K—means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

4.
摘 要 针对传统K-Means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题。结合密度法和最大化最小距离的思想,本文提出基于最近高密度点间的垂直中心点优化初始聚类中心的K-Means聚类算法,该算法首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为聚类的初始中心,然后再进行K-Means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

5.
一种基于局部密度的核K-means算法*   总被引:1,自引:0,他引:1  
针对核K-means算法初始聚类中心点难以确定等问题,提出了一种基于局部密度的核K-means算法,该方法利用每个样本的局部相对密度来选择具有高密度且低相似性的样本来生成初始类中心点。实验结果表明,该算法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终可以生成质量较高且波动性较小的聚类。  相似文献   

6.
遥感图像的半监督的改进FCM算法   总被引:5,自引:0,他引:5  
对模糊C均值算法进行了改进,采用更适合遥感图像的Mahalanobis距离代替欧氏距离,并在聚类中加入了先验信息。在聚类过程中,未标签的样本通过与已标签的样本进行相似性比较来提高算法的准确性。实验表明,改进的算法能有效提高算法准确度。  相似文献   

7.
在处理不平衡数据时,为有效剔除多数样本内的冗余信息和合成有价值的少数样本,提出一种基于高斯混合模型的采样算法(MSGMM)。将多数类和少数类样本分别聚类,最佳聚类个数通过迭代确定。在迭代时,先初步选择聚类个数并用高斯混合模型聚类。对于多数样本的每一个聚类C的剔除比例为其聚类中心到SVM生成超平面的距离权重和其数量权重的加权;对少数类样本按聚类中心到超平面的距离来划分采样比例;并用Random-SMOTE算法合成新样本,以此达到样本数量之间的平衡。实验表明该算法相较于传统算法,精度有1%~16%的提升,验证了该算法的有效性。  相似文献   

8.
基于密度的聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类.指出广义的基于密度的空间聚类算法GDBSCAN在参数选取方面的局限性,并提出了改进方法.最后讨论了改进的GDBSCAN算法的实现过程.  相似文献   

9.
提出了使用密度聚类法解决图像分割的新思路。首先把数字图像按照点的分布情况建立图像样本数据库,然后利用基于密度聚类法的DBSCAN算法进行图像分割。该算法能找到图像样本比较密集的部分,概括出图像样本相对比较集中的类,并可在带有“噪声”的图像中进行聚类,完成图像分割。文章还针对DBSCAN算法的缺点,提出了DBSCAN算法的改进思路。  相似文献   

10.
针对传统密度聚类算法因使用全局变量导致对不平衡数据集的适应能力较差的问题,提出了一种基于最小生成树的密度聚类算法.首先进行数据集密度峰值计算,用于估计全局密度;然后通过密度聚类将数据集划分为高密度区域和低密度区域;接着构建和分割最小生成树对低密度区域内样本进行关联挖掘,用于将高密度区域与低密度区域互联;最后计算簇密度并以此作为特征进行簇合并,得到聚类结果.该算法结合图论知识,将数据按密度特征进行分块后合并处理,克服了传统密度聚类算法存在的局限性.通过选取多个不平衡人工数据集和UCI数据集对该算法进行测试,验证了该算法的有效性与鲁棒性.  相似文献   

11.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

12.
基于数据交叠分区的并行DBSCAN算法*   总被引:3,自引:0,他引:3  
DBSCAN是基于密度的聚类算法的一个典型代表,它对空间数据库聚类有很好的性能。然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销。随着高性能计算机的发展,特别是集群式计算机的出现,提供了一种解决DBSCAN算法缺陷的方法。测试表明,它极大地降低了DBSCAN对时间和空间的需要。  相似文献   

13.
基于数据分区的并行DBSCAN算法   总被引:1,自引:0,他引:1  
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要.  相似文献   

14.
FDBSCAN:一种快速 DBSCAN算法   总被引:19,自引:0,他引:19  
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地  相似文献   

15.
一种基于划分的不同参数值的DBSCAN算法   总被引:6,自引:0,他引:6  
聚类是数据挖掘领域中一个重要的研究方向,DBSCAN是一种基于密度的聚类算法.该算法将具有足够高密度的区域划分成簇,并可以在带有“噪声”的空间数据库中发现任意形状的簇.分析DBSCAN算法发现存在如下问题:当数据分布不均匀时,由于使用统一的全局变量,使得聚类的效果差.针对这一缺陷,提出了一种基于数据划分的思想,并对各个局部数据集采取不同的参数值分别进行聚类,最后合并各局部聚类结果.实验结果表明,改进后的算法有效并可行.  相似文献   

16.
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。  相似文献   

17.
在包层次的代码重构研究中,为了得到“高内聚、低耦合”的软件结构,层次聚类算法因其简单有效、聚类精度高等特点被认为是一种较好的软件聚类方法。但是,层次聚类算法时间复杂度高,不利于处理较大规模的软件。而基于密度聚类的DBSCAN算法则与之相反,具有较快的聚类速度,但是精度却较低。因此,提出一种基于DBSCAN的软件层次聚类算法,利用DBSCAN算法所产生的类来约束层次聚类算法的聚类空间,该算法可以保持层次聚类算法的精度不变,且它的时间复杂度介于DBSCAN和层次聚类算法之间。实验结果表明,该算法可以有效地对软件进行合理划分,并通过专家评判、模块划分度量指标和算法运行时间对比来表明其比其他常用聚类算法的性能更好。  相似文献   

18.
Clustering problem is an unsupervised learning problem. It is a procedure that partition data objects into matching clusters. The data objects in the same cluster are quite similar to each other and dissimilar in the other clusters. Density-based clustering algorithms find clusters based on density of data points in a region. DBSCAN algorithm is one of the density-based clustering algorithms. It can discover clusters with arbitrary shapes and only requires two input parameters. DBSCAN has been proved to be very effective for analyzing large and complex spatial databases. However, DBSCAN needs large volume of memory support and often has difficulties with high-dimensional data and clusters of very different densities. So, partitioning-based DBSCAN algorithm (PDBSCAN) was proposed to solve these problems. But PDBSCAN will get poor result when the density of data is non-uniform. Meanwhile, to some extent, DBSCAN and PDBSCAN are both sensitive to the initial parameters. In this paper, we propose a new hybrid algorithm based on PDBSCAN. We use modified ant clustering algorithm (ACA) and design a new partitioning algorithm based on ‘point density’ (PD) in data preprocessing phase. We name the new hybrid algorithm PACA-DBSCAN. The performance of PACA-DBSCAN is compared with DBSCAN and PDBSCAN on five data sets. Experimental results indicate the superiority of PACA-DBSCAN algorithm.  相似文献   

19.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统DBSCAN算法和KD-DBSCAN算法的聚类效果和时间性能,实验结果表明KD-DBSCAN算法的聚类效果和传统的DBSCAN基本一致,但时间性能有很大的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号