首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 706 毫秒
1.
为了改善DBSCAN参数敏感性和对密度分布不均数据对象聚类质量不高的问题,提出了一种基于DBSCAN算法的改进聚类方法。算法使用K最近邻的均值距离度量密度,中心点选取当前密度最大点,并以中心点为核心点扩展种子队列,直至由给定的密度比例因子所决定的密度边缘。为了改善聚类质量,提出了候选核心点,并使用给定的半径比例因子发现核心点。在实验中,利用数据集对该算法进行了测试,测试结果证明了该改进算法的参数鲁棒性,和在聚类密度分布不均数据集时的较好性能。  相似文献   

2.
DBSCAN是一种性能优越的基于密度的聚类算法。为提高它的运行效率,提出了基于网格的DBSCAN算法GbDBSCAN。该算法使用网格划分的方法和数据分箱技术,减少了判定密度可达对象时的搜索范围,降低了算法的运行时间,而且算法还能够识别并处理边界点。实验结果表明,GbDBSCAN在不降低DBSCAN聚类质量的前提下,大大提高了DBSCAN算法处理低维数据集的效率。  相似文献   

3.
袁夏  赵春霞 《机器人》2011,33(1):90-96
提出一种适用于机器人导航和环境理解的聚类算法,该算法用来处理各向异性分布的点云数据.算法的基本思想是基于点云的密度分布变化和空间位置分布的不同进行聚类,将信息聚类思想触入传统的DBSCAN算法,既保留了DBSCAN算法抗噪声能力强的优点,又结合点云的空间概率分布改善了聚类结果.算法采用自适应的实时参数估计方法克服全局参...  相似文献   

4.
基于密度梯度的聚类算法研究   总被引:1,自引:0,他引:1  
陈治平  王雷  李志成 《计算机应用》2006,26(10):2389-2392
针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。  相似文献   

5.
经典的密度聚类算法是DBSCAN(Density—BasedSpatialClusteringofApplicationswithNoise).它在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点。但是DBSCAN存在一些缺点,因此许多密度聚类算法被提出来,包括:基于抽样的DBSCAN、基于数据分区的DBSCAN、基于密度梯度的聚类算法和基于相对密度的聚类算法等。  相似文献   

6.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

7.
提出了使用密度聚类法解决图像分割的新思路。首先把数字图像按照点的分布情况建立图像样本数据库,然后利用基于密度聚类法的DBSCAN算法进行图像分割。该算法能找到图像样本比较密集的部分,概括出图像样本相对比较集中的类,并可在带有“噪声”的图像中进行聚类,完成图像分割。文章还针对DBSCAN算法的缺点,提出了DBSCAN算法的改进思路。  相似文献   

8.
针对快速搜索和发现密度峰值聚类(CFSFDP)算法需人工在决策图上选择聚类中心的问题,提出一种基于密度峰值和密度聚类的集成算法。首先,借鉴CFSFDP思想,将局部密度最大的数据作为第一个中心;接着,从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类(DBSCAN)算法进行聚类,得到第一个簇;最后,在尚未被划分的数据中找出最大局部密度的数据,将它作为下一个簇的中心后再次采用上述算法进行聚类,直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题,又优化了DBSCAN算法,即每次迭代都是从当前最好的点(局部密度最大的点)出发寻找簇。通过可视化数据集和非可视化数据集与经典算法(CFSFDP、DBSCAN、模糊C均值(FCM)算法和K均值(K-means)算法)的对比实验结果表明,所提算法聚类效果更好,准确率更高,优于对比算法。  相似文献   

9.
一个改进的基于DBSCAN的空间聚类算法研究   总被引:2,自引:0,他引:2  
DBSCAN是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。但DBSCAN算法没有考虑非空间属性,且DBSCAN算法需扫描空间数据库中每个点的ε-邻域来寻找聚类,这使得DBSCAN算法的应用受到了一定的局限。文中提出了一种基于DBSCAN的算法,可以处理非空间属性,同时又可以加快聚类的速度。  相似文献   

10.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

11.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

12.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

13.
基于煤矿瓦斯监测系统在煤炭生产过程中的监测信息数据库,提出了采用基于DBSCAN算法的聚类分析方法挖掘瓦斯事故信息特征的方案;指出了DBSCAN算法在实际应用中的不足,提出了基于数据划分思想改进DBSCAN算法的方案,介绍了具体的改进方法;应用基于改进DBSCAN算法的聚类分析方法对瓦斯监测信息进行聚类分析、特征提取,结果表明该方法行之有效;最后指出了该方法进一步的研究方向。  相似文献   

14.
Clustering problem is an unsupervised learning problem. It is a procedure that partition data objects into matching clusters. The data objects in the same cluster are quite similar to each other and dissimilar in the other clusters. Density-based clustering algorithms find clusters based on density of data points in a region. DBSCAN algorithm is one of the density-based clustering algorithms. It can discover clusters with arbitrary shapes and only requires two input parameters. DBSCAN has been proved to be very effective for analyzing large and complex spatial databases. However, DBSCAN needs large volume of memory support and often has difficulties with high-dimensional data and clusters of very different densities. So, partitioning-based DBSCAN algorithm (PDBSCAN) was proposed to solve these problems. But PDBSCAN will get poor result when the density of data is non-uniform. Meanwhile, to some extent, DBSCAN and PDBSCAN are both sensitive to the initial parameters. In this paper, we propose a new hybrid algorithm based on PDBSCAN. We use modified ant clustering algorithm (ACA) and design a new partitioning algorithm based on ‘point density’ (PD) in data preprocessing phase. We name the new hybrid algorithm PACA-DBSCAN. The performance of PACA-DBSCAN is compared with DBSCAN and PDBSCAN on five data sets. Experimental results indicate the superiority of PACA-DBSCAN algorithm.  相似文献   

15.
ODIC-DBSCAN:一种新的簇内孤立点分析算法   总被引:1,自引:0,他引:1  
王跃飞  于炯  苏国平  钱育蓉  廖彬  刘粟 《自动化学报》2019,45(11):2107-2127
长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN(Density based spatial clustering of application with noise)的簇内孤立点检测方法ODIC-DBSCAN(Outlier detection of inner-cluster based on DBSCAN).首先在建立距离矩阵的基础上,通过半径获取策略得到针对该点集的k个有效半径Radius集合,并据此构造密度矩阵;然后建立点集覆盖模型,提出了相邻有效半径构造的覆盖多维体能够覆盖点集的思想,并通过拉格朗日乘子法求取最优的覆盖多维体数目之比,输出点比阈值组;最后重建ODIC-DBSCAN的孤立点检测方法,以簇发生融合现象作为算法终止的判定条件.实验通过模拟数据集,公开benchmark与UCI数据集共同验证了ODIC-DBSCAN算法,展示了聚类过程;分析了算法性能;并通过与其他聚类、孤立点判定方法的对比,验证了算法对簇内孤立点的判定效果.  相似文献   

16.
为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。  相似文献   

17.
余莉  甘淑  袁希平  李佳田 《计算机应用》2016,36(5):1267-1272
空间聚类是空间数据挖掘和知识发现领域的主要研究方向之一,但点目标空间分布密度的不均匀、分布形状的多样化,以及"多桥"链接问题的存在,使得基于距离和密度的聚类算法不能高效且有效地识别聚集性高的点目标。提出了基于空间邻近的点目标聚类方法,通过Voronoi建模识别点目标间的空间邻近关系,并以Voronoi势力范围来定义相似度准则,最终构建树结构以实现点目标的聚集模式识别。实验将所提算法与K-means、具有噪声的基于密度的聚类(DBSCAN)算法进行比较分析,结果表明算法能够发现密度不均且任意形状分布的点目标集群,同时准确划分"桥"链接的簇,适用于空间点目标异质分布下的聚集模式识别。  相似文献   

18.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

19.
为降低DBSCAN算法的运行时间,结合MCMC(Markov chain Monte Carlo,马尔可夫链蒙特卡洛)采样方法对DBSCAN进行改进,提出一种聚类算法,称为DBSCAN++。其基本思想是优先扩展拓展能力较强的核心对象。通过实验将DBSCAN++与DBSCAN和OPTICS进行对比,实验结果表明,从算法运行时间看,DBSCAN++比DBSCAN平均降低了60.7%,比OPTICS平均降低了70.2%;从聚类准确性角度看,DBSCAN++与DBSCAN和OPTICS相当。在没有影响聚类准确性的情况下,DBSCAN++具有更低的运行时间,是一种有效的聚类算法。  相似文献   

20.
针对当前多文档聚合推导引起的敏感信息泄露问题存在风险大、隐蔽性高的特点,提出了一种基于半监督聚类的文档敏感信息推导方法。首先,为确保在较小的时间开销下获得高质量的约束信息,设计了一种新颖的二阶约束主动学习算法,它通过选择不确定性最大的样本点来生成信息量最大的约束闭包;然后,在引入约束信息的基础上结合DBSCAN提出一种新的半监督聚类算法,它能够有效解决DBSCAN算法存在的边界模糊问题,提高文档聚类准确性;最后,在半监督聚类结果的基础上,对相似文档进行敏感信息可能性测度。实验表明,半监督聚类算法准确率提升明显,推导方法能够有效推导出敏感信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号