共查询到20条相似文献,搜索用时 577 毫秒
1.
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。 相似文献
2.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。 相似文献
3.
4.
传统DBSCAN算法需要人为确定[Eps]和[MinPts]参数,参数的选择直接决定了聚类结果的合理性,因此提出一种新的自适应确定DBSCAN算法参数算法,该算法基于参数寻优策略,通过利用数据集自身分布特性生成候选[Eps]和[MinPts]参数,自动寻找聚类结果的簇数变化稳定区间,并将该区间中密度阈值最少时所对应的[Eps]和[MinPts]参数作为最优参数。实验结果表明,该算法能够实现聚类过程的全自动化并且能够选择合理的[Eps]和[MinPts]参数,得到了高准确度聚类结果。 相似文献
5.
针对密度聚类算法DBSCAN在ICESat-2激光点云去噪时关键参数无法自适应确定、应用效能差等问题,提出了一种基于最终聚类数和光子特点的DBSCAN参数寻优方法。该方法根据ICESat-2光子剖面数据分布情况,将参数邻域最小点数MinPts设置为经验值,根据最终聚类个数与K平均最邻近法确定半径参数Eps最佳值。采用多种类型ICESat-2数据开展去噪能力验证。实验结果表明:DBSCAN算法最小点参数MinPts可以采用经验参数,搜索半径Eps虽然能自适应确定,但计算代价较大。对多组实验数据的去噪结果表明,DBSCAN整体去噪精度优于97%,能够较为有效地处理光子噪声。 相似文献
6.
一种改进的DBSCAN密度算法 总被引:1,自引:0,他引:1
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足.比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响.文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀.实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确. 相似文献
7.
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。 相似文献
8.
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。 相似文献
9.
10.
为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。 相似文献
11.
一种改进的谱聚类算法 总被引:2,自引:0,他引:2
谱聚类算法是基于谱图理论的一类新的聚类算法,能对任意形状的数据进行划分,已经被成功应用到图像分割等领域.但谱聚类很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验.结合DBSCAN的思想,充分考虑数据的局部结构,提出了一种基于近邻自适应尺度的改进谱聚类算法.其基本思想是根据数据点的近邻分布,对每个点设置一个近邻自适应尺度,代替标准谱聚类算法中的全局统一尺度.近邻自适应尺度简化了参数的选取,使得新算法对密度的变化不敏感,对离群点有一定的鲁棒性,同时比标准谱聚类更适合任意形状的数据分布.通过与传统的聚类算法和常见的谱聚类算法做比较,在人工数据集和实际数据集UCI上的实验都验证了本算法能够获得更好的聚类效果. 相似文献
12.
13.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。 相似文献
14.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的基于密度的聚类算法,它通过两个全局参数即半径Eps和最少点数MinPts,能够对任意形状的数据进行聚类,并自动确定类个数。但是,使用全局半径的DBSCAN对于密度不均匀数据集的聚类效果较差,且无法对重叠数据集进行聚类。因此,定义了密度递减原则和局部半径,并根据k-近邻距离自动确定局部半径,从而提出了基于局部半径的DBSCAN算法(LE-DBSCAN);然后,通过考虑近邻的标签,对二支聚类结果的临界点和噪声点进行重新划分,从而提出了基于局部半径的三支DBSCAN算法(LE3W-DBSCAN)。将LE-DBSCAN和LE3W-DBSCAN与该领域的相关算法在UCI数据集和人工数据集上进行对比,实验结果表明,所提算法在常用的硬聚类指标和软聚类指标上都具有较好的表现。 相似文献
15.
16.
基于数据场的改进DBSCAN聚类算法 总被引:1,自引:0,他引:1
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。 相似文献
17.
18.
DBSCAN聚类算法使用固定的Eps和Minpts,处理多密度的数据效果不理想;并且算法的时间复杂度为O(n2)。针对以上问题,提出一种基于区域划分的DBSCAN多密度聚类算法。算法利用网格相对密度差把数据空间划分成密度不同的区域,每个区域的Eps根据该区域的密度计算自动获得,并利用DBSCAN算法进行聚类,提升了DBSCAN的精度;避免了DBSCAN在查找密度相连时需要遍历所有数据,从而改善了算法效率。实验表明算法能有效地对多密度数据进行聚类,对各种数据的适应力较强,效率较优。 相似文献
19.
基于密度的DBSCAN算法仅需要两个参数,可以在带有噪声的空间数据库中发现任意形状的聚类,但是它对于参数Eps非常敏感。本文提出一种基于网格进行数据分区,从而确定Eps的方法,可以对密度分布不均且聚类形状有交错的情况达到更好的聚类效果。 相似文献
20.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。 相似文献