期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

自适应确定DBSCAN算法参数的算法研究 总被引：1，自引：0，他引：1

李文杰闫世强蒋莹张松芝王成良《计算机工程与应用》2019,55(5):1-7

传统DBSCAN算法需要人为确定[Eps]和[MinPts]参数,参数的选择直接决定了聚类结果的合理性,因此提出一种新的自适应确定DBSCAN算法参数算法,该算法基于参数寻优策略,通过利用数据集自身分布特性生成候选[Eps]和[MinPts]参数,自动寻找聚类结果的簇数变化稳定区间,并将该区间中密度阈值最少时所对应的[Eps]和[MinPts]参数作为最优参数。实验结果表明,该算法能够实现聚类过程的全自动化并且能够选择合理的[Eps]和[MinPts]参数,得到了高准确度聚类结果。相似文献

2.

基于数据场的改进DBSCAN聚类算法 总被引：1，自引：0，他引：1

杨静高嘉伟梁吉业刘杨磊《计算机科学与探索》2012,(10):903-911

DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。相似文献

3.

针对非均匀数据集的DBSCAN过滤式改进算法*

熊忠阳吴林敏张玉芳《计算机应用研究》2009,26(10):3721-3723

针对在数据分布不均匀时,由于DBSCAN使用统一的全局变量,使得聚类的效果差,提出了一种基于过滤的DBSCAN算法。该算法的思想是：在调用传统的DBSCAN算法前,先对数据集进行预处理,针对所有点的k-dist数据进行一维聚类,自动计算出不同的Eps;然后再根据每个Eps分别调用传统的DBSCAN算法,从而找出非均匀数据集的各种聚类。实验结果表明,改进算法对密度不均匀的数据能够有效聚类。相似文献

4.

一种改进的DBSCAN密度算法

于亚飞周爱武《微机发展》2011,(2):30-33,38

DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。相似文献

5.

一种改进的DBSCAN密度算法 总被引：1，自引：0，他引：1

于亚飞周爱武《计算机技术与发展》2011,21(2)

DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足.比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响.文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀.实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确. 相似文献

6.

一种多目标自适应DBSCAN离群点检测算法

黄剑柔王茜蔡星娟李建伟《小型微型计算机系统》2022,(4):702-706

在基于聚类的DBSCAN离群点检测算法中,存在参数Eps的不确定性和全局统一性问题.因此,本文首先提出了一种基于多目标优化的自适应DBSCAN离群点检测算法,根据不同数据集的特点,通过NSGA-Ⅱ优化算法为数据集中的每个数据自适应地求解一个最优Eps,不仅避免了人为经验设置参数的不足,还解决了全局参数带来的聚类不精确问... 相似文献

7.

基于区域划分的DBSCAN多密度聚类算法_*

韩利钊钱雪忠罗靖宋威《计算机应用研究》2018,35(6)

DBSCAN聚类算法使用固定的Eps和Minpts,处理多密度的数据效果不理想;并且算法的时间复杂度为O(n2)。针对以上问题,提出一种基于区域划分的DBSCAN多密度聚类算法。算法利用网格相对密度差把数据空间划分成密度不同的区域,每个区域的Eps根据该区域的密度计算自动获得,并利用DBSCAN算法进行聚类,提升了DBSCAN的精度;避免了DBSCAN在查找密度相连时需要遍历所有数据,从而改善了算法效率。实验表明算法能有效地对多密度数据进行聚类,对各种数据的适应力较强,效率较优。相似文献

8.

DBSCAN算法中参数的自适应确定 总被引：1，自引：0，他引：1

李宗林罗可《计算机工程与应用》2016,52(3):70-73

DBSCAN算法需要人为确定[Eps]和[minPts]两个参数,导致聚类结果的准确度直接取决于用户对参数的选择,因此提出一种新的参数确定方法,采用非参数核密度估计理论分析数据样本的分布特征来自动确定[Eps]和[minPts]参数,避免了聚类过程的人工干预,实现聚类过程的自动化。理论分析和实验结果表明,该方法能够选择合理的[Eps]和[minPts]参数,并得到了较高准确度的聚类结果。相似文献

9.

基于MapReduce的改进DBSCAN算法

赖丽萍聂瑞华汪疆平黄家鸿《计算机科学》2015,42(Z11):396-399

针对聚类算法DBSCAN中存在的Eps参数问题和处理海量数据集时的效率问题,提出OPDBSCAN算法。OPDBSCAN算法通过交叠分区获取局部Eps以降低全局Eps参数对聚类质量的影响,并结合MapReduce并行框架提高算法效率。实验结果表明,OPDBSCAN算法的效率和聚类质量都高于原DBSCAN算法。相似文献

10.

一种基于k-均值的DBSCAN算法参数动态选择方法

王兆丰单甘霖《计算机工程与应用》2017,53(3):80-86

为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。相似文献

11.

基于Spark的并行DBSCAN算法的设计与实现

黄明吉张倩《计算机科学》2017,44(Z11):524-529

随着云应用对运行时间和性能水平要求的逐步提高,以及内存价格的持续走低,基于内存的分布式计算框架Spark获得了前所未有的关注。主要研究DBSCAN算法在Spark上并行化的设计与实现,通过整体分析找到算法并行化可能的性能瓶颈,并从Spark的角度设计了并行DBSCAN算法的DAG图,优化了算法的并行化策略,最大化地降低了shuffle频率和数据量。最后将并行DBSCAN算法与单机DBSCAN算法进行性能对比,并通过实验分析不同参数对聚类结果的影响。结果表明,与单机DBSCAN算法相比,基于Spark的并行DBSCAN算法在聚类精度没有明显损失的情况下,数据量在3百万行时运行效率提高了37.2%,且加速比达到1.6。相似文献

12.

Greedy DBSCAN:一种针对多密度聚类的DBSCAN改进算法_*

冯振华钱雪忠赵娜娜《计算机应用研究》2016,33(9)

针对基于密度的DBSCAN算法对于输入参数敏感、无法聚类多密度数据集等问题,提出了一种贪心的DBSCAN改进算法（Greedy DBSCAN）。算法仅需输入一个参数MinPts,采用贪心策略自适应地寻找Eps半径参数进行簇发现,利用相对稠密度识别和判定噪声数据,在随机寻找核对象过程中使用邻域查询方式提升算法效率,最终通过簇的合并产生最终的聚类结果。实验结果表明,改进后的算法能有效地分离噪声数据,识别多密度簇,聚类准确度较高。相似文献

13.

结构复杂数据的半监督聚类 总被引：1，自引：0，他引：1

黄添强余养强秦小麟《控制与决策》2010,25(1)

基于成对限制,提出一种半监督聚类算法（ＳＣＣＤ）,它能够处理存在多种密度结构复杂的数据且识别任意形状的簇．利用成对限制反映的多密度分布信息计算基于密度的聚类算法（ＤＢＳＣＡＮ）的邻域半径参数Ｅｐｓ,并利用不同参数的ＤＢＳＣＡＮ算法处理复杂形状且密度变化的数据集．实验结果表明,ＳＣＣＤ算法能在噪声环境下发现任意形状且多密度的簇,性能优于已有同类算法．相似文献

14.

基于最小生成树的密度聚类算法研究

王诚高兴东《计算机技术与发展》2022,(2):45-50

传统DBSCAN算法对密度分布不均匀的不平衡数据集的聚类效果并不理想,同时传统算法的聚类结果对邻域半径(Eps)以及核心点阈值(MinPts)敏感.针对以上问题,改进了传统算法,提出了一种基于最小生成树的密度聚类算法(MST-DBSCAN).由于对象之间的距离对聚类结果影响较大,为了更好地表示对象之间的距离特性,首先使... 相似文献

15.

改进的自适应参数DBSCAN聚类算法

下载免费PDF全文

王光林国宇《计算机工程与应用》2020,56(14):45-51

针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数，且参数选择不合理导致聚类准确率低的问题，提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间，通过分析数据局部密度特点确定簇数，根据合理区间内的参数值进行聚类，计算满足簇数条件时的轮廓系数，最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验，结果表明，该算法能够自动选择最优的[Eps]和[MinPts]参数，准确率平均提高6.1%。相似文献