首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 577 毫秒
1.
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。  相似文献   

2.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。  相似文献   

3.
针对聚类算法DBSCAN中存在的Eps参数问题和处理海量数据集时的效率问题,提出OPDBSCAN算法。OPDBSCAN算法通过交叠分区获取局部Eps以降低全局Eps参数对聚类质量的影响,并结合MapReduce并行框架提高算法效率。实验结果表明,OPDBSCAN算法的效率和聚类质量都高于原DBSCAN算法。  相似文献   

4.
自适应确定DBSCAN算法参数的算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
传统DBSCAN算法需要人为确定[Eps]和[MinPts]参数,参数的选择直接决定了聚类结果的合理性,因此提出一种新的自适应确定DBSCAN算法参数算法,该算法基于参数寻优策略,通过利用数据集自身分布特性生成候选[Eps]和[MinPts]参数,自动寻找聚类结果的簇数变化稳定区间,并将该区间中密度阈值最少时所对应的[Eps]和[MinPts]参数作为最优参数。实验结果表明,该算法能够实现聚类过程的全自动化并且能够选择合理的[Eps]和[MinPts]参数,得到了高准确度聚类结果。  相似文献   

5.
针对密度聚类算法DBSCAN在ICESat-2激光点云去噪时关键参数无法自适应确定、应用效能差等问题,提出了一种基于最终聚类数和光子特点的DBSCAN参数寻优方法。该方法根据ICESat-2光子剖面数据分布情况,将参数邻域最小点数MinPts设置为经验值,根据最终聚类个数与K平均最邻近法确定半径参数Eps最佳值。采用多种类型ICESat-2数据开展去噪能力验证。实验结果表明:DBSCAN算法最小点参数MinPts可以采用经验参数,搜索半径Eps虽然能自适应确定,但计算代价较大。对多组实验数据的去噪结果表明,DBSCAN整体去噪精度优于97%,能够较为有效地处理光子噪声。  相似文献   

6.
一种改进的DBSCAN密度算法   总被引:1,自引:0,他引:1  
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足.比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响.文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀.实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确.  相似文献   

7.
于亚飞  周爱武 《微机发展》2011,(2):30-33,38
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。  相似文献   

8.
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。  相似文献   

9.
针对在数据分布不均匀时,由于DBSCAN使用统一的全局变量,使得聚类的效果差,提出了一种基于过滤的DBSCAN算法。该算法的思想是:在调用传统的DBSCAN算法前,先对数据集进行预处理,针对所有点的k-dist数据进行一维聚类,自动计算出不同的Eps;然后再根据每个Eps分别调用传统的DBSCAN算法,从而找出非均匀数据集的各种聚类。实验结果表明,改进算法对密度不均匀的数据能够有效聚类。  相似文献   

10.
为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。  相似文献   

11.
一种改进的谱聚类算法   总被引:2,自引:0,他引:2  
谱聚类算法是基于谱图理论的一类新的聚类算法,能对任意形状的数据进行划分,已经被成功应用到图像分割等领域.但谱聚类很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验.结合DBSCAN的思想,充分考虑数据的局部结构,提出了一种基于近邻自适应尺度的改进谱聚类算法.其基本思想是根据数据点的近邻分布,对每个点设置一个近邻自适应尺度,代替标准谱聚类算法中的全局统一尺度.近邻自适应尺度简化了参数的选取,使得新算法对密度的变化不敏感,对离群点有一定的鲁棒性,同时比标准谱聚类更适合任意形状的数据分布.通过与传统的聚类算法和常见的谱聚类算法做比较,在人工数据集和实际数据集UCI上的实验都验证了本算法能够获得更好的聚类效果.  相似文献   

12.
针对基于密度的DBSCAN算法对于输入参数敏感、无法聚类多密度数据集等问题,提出了一种贪心的DBSCAN改进算法(Greedy DBSCAN)。算法仅需输入一个参数MinPts,采用贪心策略自适应地寻找Eps半径参数进行簇发现,利用相对稠密度识别和判定噪声数据,在随机寻找核对象过程中使用邻域查询方式提升算法效率,最终通过簇的合并产生最终的聚类结果。实验结果表明,改进后的算法能有效地分离噪声数据,识别多密度簇,聚类准确度较高。  相似文献   

13.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。  相似文献   

14.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的基于密度的聚类算法,它通过两个全局参数即半径Eps和最少点数MinPts,能够对任意形状的数据进行聚类,并自动确定类个数。但是,使用全局半径的DBSCAN对于密度不均匀数据集的聚类效果较差,且无法对重叠数据集进行聚类。因此,定义了密度递减原则和局部半径,并根据k-近邻距离自动确定局部半径,从而提出了基于局部半径的DBSCAN算法(LE-DBSCAN);然后,通过考虑近邻的标签,对二支聚类结果的临界点和噪声点进行重新划分,从而提出了基于局部半径的三支DBSCAN算法(LE3W-DBSCAN)。将LE-DBSCAN和LE3W-DBSCAN与该领域的相关算法在UCI数据集和人工数据集上进行对比,实验结果表明,所提算法在常用的硬聚类指标和软聚类指标上都具有较好的表现。  相似文献   

15.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

16.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

17.
周红芳  赵雪涵  周扬 《计算机应用》2012,32(8):2182-2185
传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。  相似文献   

18.
DBSCAN聚类算法使用固定的Eps和Minpts,处理多密度的数据效果不理想;并且算法的时间复杂度为O(n2)。针对以上问题,提出一种基于区域划分的DBSCAN多密度聚类算法。算法利用网格相对密度差把数据空间划分成密度不同的区域,每个区域的Eps根据该区域的密度计算自动获得,并利用DBSCAN算法进行聚类,提升了DBSCAN的精度;避免了DBSCAN在查找密度相连时需要遍历所有数据,从而改善了算法效率。实验表明算法能有效地对多密度数据进行聚类,对各种数据的适应力较强,效率较优。  相似文献   

19.
基于密度的DBSCAN算法仅需要两个参数,可以在带有噪声的空间数据库中发现任意形状的聚类,但是它对于参数Eps非常敏感。本文提出一种基于网格进行数据分区,从而确定Eps的方法,可以对密度分布不均且聚类形状有交错的情况达到更好的聚类效果。  相似文献   

20.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号