首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 106 毫秒
1.
基于数据分区的并行DBSCAN算法   总被引:1,自引:0,他引:1  
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要.  相似文献   

2.
一种改进的基于密度的抽样聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的聚类并且有效地处理噪声。然而,DBSCAN算法也有一些缺点,例如,①在聚类时只考虑空间属性没有考虑非空间属性;②在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。为此,在分析DBSCAN算法不足的基础上,提出了一种改进的基于密度的抽样聚类(improved density-based spatial clustering algorithm with sampling,IDBSCAS)算法,使之能够有效地处理大规模空间数据库,并且它不仅考虑了空间属性也考虑了非空间属性。2维空间数据的测试结果表明,该算法是可行、有效的。  相似文献   

3.
基于数据取样的DBSCAN算法   总被引:14,自引:1,他引:13  
取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用,基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的类并且有效地处理噪声,用户只需输入一个参数就可以进行聚类分析,但是,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。本文在分析DBSCAN算法不足的基础上,提出一种基于数据取样的DBSCAN算法,使之能够有效地处理大规模空间数据库。二维空间数据测试结果表明本文算法是可行、有效的。  相似文献   

4.
DBSCAN是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。但DBSCAN算法没有考虑非空间属性,且DBSCAN算法需扫描空间数据库中每个点的ε-邻域来寻找聚类,这使得DBSCAN算法的应用受到了一定的局限。文中提出了一种基于DBSCAN的算法,可以处理非空间属性,同时又可以加快聚类的速度。  相似文献   

5.
一个改进的基于DBSCAN的空间聚类算法研究   总被引:2,自引:0,他引:2  
DBSCAN是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。但DBSCAN算法没有考虑非空间属性,且DBSCAN算法需扫描空间数据库中每个点的ε-邻域来寻找聚类,这使得DBSCAN算法的应用受到了一定的局限。文中提出了一种基于DBSCAN的算法,可以处理非空间属性,同时又可以加快聚类的速度。  相似文献   

6.
基于密度的聚类算法是聚类分析算法中的一种主要技术,它对空间数据库聚类有着很好的性能,然而,对大规模数据库聚类时,DBSCAN算法需要大量的内存支持并伴随着I/O开销.提出了一种带有矢量性的密度聚类算法,具有约束聚类方向,减少候选点的特点.以地理信息系统(GIS)为应用背景,成功应用于高速公路选线,得到了良好的效果.  相似文献   

7.
基于密度的DBSCAN算法仅需要两个参数,可以在带有噪声的空间数据库中发现任意形状的聚类,但是它对于参数Eps非常敏感。本文提出一种基于网格进行数据分区,从而确定Eps的方法,可以对密度分布不均且聚类形状有交错的情况达到更好的聚类效果。  相似文献   

8.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

9.
DBSCAN聚类算法使用固定的Eps和Minpts,处理多密度的数据效果不理想;并且算法的时间复杂度为O(n2)。针对以上问题,提出一种基于区域划分的DBSCAN多密度聚类算法。算法利用网格相对密度差把数据空间划分成密度不同的区域,每个区域的Eps根据该区域的密度计算自动获得,并利用DBSCAN算法进行聚类,提升了DBSCAN的精度;避免了DBSCAN在查找密度相连时需要遍历所有数据,从而改善了算法效率。实验表明算法能有效地对多密度数据进行聚类,对各种数据的适应力较强,效率较优。  相似文献   

10.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

11.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

12.
FDBSCAN:一种快速 DBSCAN算法   总被引:19,自引:0,他引:19  
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地  相似文献   

13.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统DBSCAN算法和KD-DBSCAN算法的聚类效果和时间性能,实验结果表明KD-DBSCAN算法的聚类效果和传统的DBSCAN基本一致,但时间性能有很大的提升.  相似文献   

14.
各种集成位置服务(LBS)的社交和旅游类APP的广泛应用,产生了大量轨迹空间数据,利用这些轨迹数据挖掘游客聚集密度高的热门景点区域,对景区的智慧服务和应急管理具有重要意义。为此,提出了一种基于轨迹停留点空间聚类的景区热点分析方法。重点研究了聚类速度快、能处理噪声、可以发现空间任意形状聚簇的DBSCAN算法,针对其参数需人工选择的不足,提出了一种根据数据统计分布特性来自适应确定参数的改进方法。分别采用人工合成二维数据集、四维Iris真实数据集和景区轨迹停留点三种不同的数据进行了DBSCAN聚类分析及对比实验,结果表明该方法可以自动产生合理的聚簇划分,优于传统DBSCAN和k-means等算法。最后,依据轨迹停留点的空间聚类结果,在ArcGIS软件中实现Getis-Ord Gi*热点分析与制图,并依据分析结果对不同旅游景点进行热度分级,形成的热门景点分布与景区掌握的实际热度信息基本一致,证实了提出方法的有效性。  相似文献   

15.
基于数据分区的DBSCAN算法   总被引:34,自引:1,他引:33  
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用。DBSCAN是一种基于密度的空间聚类算法,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点,但由于直接对数据库进行操作,在数据量大的时间就需要较多的内存和I/O开销;此外,当数据密度和聚类间的距离不均匀时聚类质量较差,为此,在分析DBSCAN算法不足的基础上,提出了一个基于数据分区的DBSCAN算法,测试结果表  相似文献   

16.
Clustering problem is an unsupervised learning problem. It is a procedure that partition data objects into matching clusters. The data objects in the same cluster are quite similar to each other and dissimilar in the other clusters. Density-based clustering algorithms find clusters based on density of data points in a region. DBSCAN algorithm is one of the density-based clustering algorithms. It can discover clusters with arbitrary shapes and only requires two input parameters. DBSCAN has been proved to be very effective for analyzing large and complex spatial databases. However, DBSCAN needs large volume of memory support and often has difficulties with high-dimensional data and clusters of very different densities. So, partitioning-based DBSCAN algorithm (PDBSCAN) was proposed to solve these problems. But PDBSCAN will get poor result when the density of data is non-uniform. Meanwhile, to some extent, DBSCAN and PDBSCAN are both sensitive to the initial parameters. In this paper, we propose a new hybrid algorithm based on PDBSCAN. We use modified ant clustering algorithm (ACA) and design a new partitioning algorithm based on ‘point density’ (PD) in data preprocessing phase. We name the new hybrid algorithm PACA-DBSCAN. The performance of PACA-DBSCAN is compared with DBSCAN and PDBSCAN on five data sets. Experimental results indicate the superiority of PACA-DBSCAN algorithm.  相似文献   

17.
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号