首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
基于数据交叠分区的并行DBSCAN算法*   总被引:3,自引:0,他引:3  
DBSCAN是基于密度的聚类算法的一个典型代表,它对空间数据库聚类有很好的性能。然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销。随着高性能计算机的发展,特别是集群式计算机的出现,提供了一种解决DBSCAN算法缺陷的方法。测试表明,它极大地降低了DBSCAN对时间和空间的需要。  相似文献   

2.
一种改进的基于密度的抽样聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的聚类并且有效地处理噪声。然而,DBSCAN算法也有一些缺点,例如,①在聚类时只考虑空间属性没有考虑非空间属性;②在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。为此,在分析DBSCAN算法不足的基础上,提出了一种改进的基于密度的抽样聚类(improved density-based spatial clustering algorithm with sampling,IDBSCAS)算法,使之能够有效地处理大规模空间数据库,并且它不仅考虑了空间属性也考虑了非空间属性。2维空间数据的测试结果表明,该算法是可行、有效的。  相似文献   

3.
基于数据取样的DBSCAN算法   总被引:14,自引:1,他引:13  
取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用,基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的类并且有效地处理噪声,用户只需输入一个参数就可以进行聚类分析,但是,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。本文在分析DBSCAN算法不足的基础上,提出一种基于数据取样的DBSCAN算法,使之能够有效地处理大规模空间数据库。二维空间数据测试结果表明本文算法是可行、有效的。  相似文献   

4.
一个改进的基于DBSCAN的空间聚类算法研究   总被引:2,自引:0,他引:2  
DBSCAN是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。但DBSCAN算法没有考虑非空间属性,且DBSCAN算法需扫描空间数据库中每个点的ε-邻域来寻找聚类,这使得DBSCAN算法的应用受到了一定的局限。文中提出了一种基于DBSCAN的算法,可以处理非空间属性,同时又可以加快聚类的速度。  相似文献   

5.
DBSCAN是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。但DBSCAN算法没有考虑非空间属性,且DBSCAN算法需扫描空间数据库中每个点的ε-邻域来寻找聚类,这使得DBSCAN算法的应用受到了一定的局限。文中提出了一种基于DBSCAN的算法,可以处理非空间属性,同时又可以加快聚类的速度。  相似文献   

6.
基于密度的聚类算法是聚类分析算法中的一种主要技术,它对空间数据库聚类有着很好的性能,然而,对大规模数据库聚类时,DBSCAN算法需要大量的内存支持并伴随着I/O开销.提出了一种带有矢量性的密度聚类算法,具有约束聚类方向,减少候选点的特点.以地理信息系统(GIS)为应用背景,成功应用于高速公路选线,得到了良好的效果.  相似文献   

7.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

8.
基于密度的DBSCAN算法仅需要两个参数,可以在带有噪声的空间数据库中发现任意形状的聚类,但是它对于参数Eps非常敏感。本文提出一种基于网格进行数据分区,从而确定Eps的方法,可以对密度分布不均且聚类形状有交错的情况达到更好的聚类效果。  相似文献   

9.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

10.
经典的密度聚类算法是DBSCAN(Density—BasedSpatialClusteringofApplicationswithNoise).它在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点。但是DBSCAN存在一些缺点,因此许多密度聚类算法被提出来,包括:基于抽样的DBSCAN、基于数据分区的DBSCAN、基于密度梯度的聚类算法和基于相对密度的聚类算法等。  相似文献   

11.
FDBSCAN:一种快速 DBSCAN算法   总被引:19,自引:0,他引:19  
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地  相似文献   

12.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

13.
基于数据分区的DBSCAN算法   总被引:34,自引:1,他引:33  
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用。DBSCAN是一种基于密度的空间聚类算法,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点,但由于直接对数据库进行操作,在数据量大的时间就需要较多的内存和I/O开销;此外,当数据密度和聚类间的距离不均匀时聚类质量较差,为此,在分析DBSCAN算法不足的基础上,提出了一个基于数据分区的DBSCAN算法,测试结果表  相似文献   

14.
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。  相似文献   

15.
结构复杂数据的半监督聚类   总被引:1,自引:0,他引:1  
基于成对限制,提出一种半监督聚类算法(SCCD),它能够处理存在多种密度结构复杂的数据且识别任意形状的簇.利用成对限制反映的多密度分布信息计算基于密度的聚类算法(DBSCAN)的邻域半径参数Eps,并利用不同参数的DBSCAN 算法处理复杂形状且密度变化的数据集.实验结果表明,SCCD 算法能在噪声环境下发现任意形状且多密度的簇,性能优于已有同类算法.  相似文献   

16.
Clustering problem is an unsupervised learning problem. It is a procedure that partition data objects into matching clusters. The data objects in the same cluster are quite similar to each other and dissimilar in the other clusters. Density-based clustering algorithms find clusters based on density of data points in a region. DBSCAN algorithm is one of the density-based clustering algorithms. It can discover clusters with arbitrary shapes and only requires two input parameters. DBSCAN has been proved to be very effective for analyzing large and complex spatial databases. However, DBSCAN needs large volume of memory support and often has difficulties with high-dimensional data and clusters of very different densities. So, partitioning-based DBSCAN algorithm (PDBSCAN) was proposed to solve these problems. But PDBSCAN will get poor result when the density of data is non-uniform. Meanwhile, to some extent, DBSCAN and PDBSCAN are both sensitive to the initial parameters. In this paper, we propose a new hybrid algorithm based on PDBSCAN. We use modified ant clustering algorithm (ACA) and design a new partitioning algorithm based on ‘point density’ (PD) in data preprocessing phase. We name the new hybrid algorithm PACA-DBSCAN. The performance of PACA-DBSCAN is compared with DBSCAN and PDBSCAN on five data sets. Experimental results indicate the superiority of PACA-DBSCAN algorithm.  相似文献   

17.
密度峰值聚类(DPC)算法在对密度分布差异较大的数据进行聚类时效果不佳,聚类结果受局部密度及其相对距离影响,且需要手动选取聚类中心,从而降低了算法的准确性与稳定性。为此,提出一种基于加权共享近邻与累加序列的密度峰值算法DPC-WSNN。基于加权共享近邻重新定义局部密度的计算方式,以避免截断距离选取不当对聚类效果的影响,同时有效处理不同类簇数据集分布不均的问题。在原有DPC算法决策值的基础上,生成一组累加序列,将累加序列的均值作为聚类中心和非聚类中心的临界点从而实现聚类中心的自动选取。利用人工合成数据集与UCI上的真实数据集测试与评估DPC-WSNN算法,并将其与FKNN-DPC、DPC、DBSCAN等算法进行比较,结果表明,DPC-WSNN算法具有更好的聚类表现,聚类准确率较高,鲁棒性较强。  相似文献   

18.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号