首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
一种基于密度单元的自扩展聚类算法   总被引:4,自引:0,他引:4  
提出一种高效的基于密度单元的自扩展聚类算法SECDU.首先将数据空间等分为若干个密度单元,再根据数据点的位置将其划分到所属的密度单元中,然后针对密度单元进行聚类.聚类首先产生在数据最密集的区域,然后向周围低密度区域延伸.聚类在延伸的过程中体积逐渐增大,密度逐渐减小,直到聚类的密度达到一个事先规定的限度时为止.算法在保留原有数据分布特性的前提下利用密度单元对数据进行压缩,并在保证具有较好效果的前提下大幅度地提高了聚类的速度.  相似文献   

2.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

3.
提出了一种基于空间单元单维运算的快速聚类算法SUSDC。该算法首先将被聚类的数据逐维划分成 若干个不相交的空间单元;然后基于空间距离阈值判定相邻的空间单元是否合并,直到全部维处理完毕。实验 结果验证了SUSDC算法运算速度快,能够处理不规则形状数据和高维数据,且具有对噪声数据不敏感的特点。  相似文献   

4.
在减法聚类中一般只采用固定聚类半径训练聚类的做法,这样就可能得到过多或过少的聚类中心。为了提高聚类结果的最优性,从数据样本空间密度疏密程度考虑出发,改进了减法聚类算法,不仅改善了原来聚类半径只能固定的做法,而且适应于聚类大小不同时的数据聚类,使得调节参数更少,并结合模糊C-均值(FCM)聚类可以获得更为合理和准确的聚类个数和聚类中心,在一定程度上拓展了聚类算法的适用性。最后通过仿真证明了改进算法的有效性。  相似文献   

5.
一种基于密度的高性能增量聚类算法   总被引:4,自引:1,他引:4       下载免费PDF全文
刘建晔  李芳 《计算机工程》2006,32(21):76-78
提出并证明了一种基于密度的高性能增量聚类算法,算法的主要工作包括:(1)利用分区和抽样技术对数据进行抽取和清理。(2)利用密度和网格技术对数据进行聚类。(3)改变阈值后提出一种增量算法,只对受影响的点重新计算聚类。(4)在动态环境下,数据增删后的增量聚类算法。实验证明,该算法能很好地处理高维数据,有效过滤噪声数据,大大节省聚类时间。  相似文献   

6.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

7.
针对基于密度的空间聚类及其变种提出了拓扑的概念。给出了聚类拓扑结构的定义,把簇定义为多种拓扑连通集合。此外,运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法。实例证明此算法有效。  相似文献   

8.
针对密度峰值聚类(Density Peak Clustering, DPC)算法具有时空复杂度高而降低了对大规模数据集聚类的有效性,以及依靠决策图人工选取聚类中心等缺点,提出基于网格的密度峰值聚类(G-DPC)算法。采用基于网格的方式进行网格划分,用网格代表点替换网格单元整体;对各代表点聚类,通过改进的自适应方法选出核心网格代表点作为聚类中心;将剩余点归类,剔除噪声点。仿真实验验证了该算法对大规模数据集和高维数据集聚类的有效性。  相似文献   

9.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

10.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

11.
针对网格密度聚类算法存在的网格宽度和密度阈值难以确定以及聚类精度不高的缺陷,提出了一种参数自适应的网格密度聚类算法。定义了数据集标准化离散度的概念,运用数据集的自然分布信息自适应地计算出每一维较优的分割宽度,对不同的密度阈值统计其噪声样本对象的数量,绘制了噪声曲线,从噪声曲线中获得最佳的密度阈值,而且增加了类簇边缘处理技术,进一步提高了聚类的质量。仿真实验表明,改进后的算法可获得更好的聚类效果。  相似文献   

12.
一种基于网格密度的自适应聚类分析算法   总被引:1,自引:0,他引:1  
在结合基于密度和基于网格的聚类算法优点的基础上,提出一种新的聚类算法.该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感,具有较低的时间和空间复杂性及较高的识别率.通过实验对该算法进行了性能比较和测试,显示了它在各方面的优越性.  相似文献   

13.
王翠娥  于晓明 《计算机应用》2010,30(11):3051-3052
针对现有入侵检测算法中普遍存在的对输入顺序敏感的问题,提出了将网格和密度相结合的聚类算法应用到入侵检测中。该算法在CLIQUE基础上进行了改进,将非密集单元向密集单元移动,克服了CLIQUE算法聚类结果精确性不高的缺点。该算法结合了网格聚类的低时空复杂度和密度聚类的良好抗噪性的特点。仿真实验中采用了KDD-CUP99的测试数据集,实验结果证实了该算法的有效性和可行性。  相似文献   

14.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

15.
一种改进的带障碍的基于密度和网格的聚类算法   总被引:3,自引:0,他引:3  
提出了一个改进的带障碍的网格弥散聚类算法DCellO1:以网格为基础,将基于密度的聚类算法与图形学种子填充算法相结合。该算法能进行任意形状的带障碍聚类,并且在对象分布不均匀时也能获得较好的聚类结果。实验证明了该算法的有效性与优越性。  相似文献   

16.
新的基于网格的聚类算法(CABG)利用网格处理技术对数据进行了预处理,能根据数据分布情况动态计算每个单元格的半径,并成功地将网格预处理后所得单元格数据运用于其后的聚类分析中,从而简化了算法所需的初始参数。实验表明,CABG算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度以及对初始参数较低的敏感度。  相似文献   

17.
邵伦  周新志  赵成萍  张旭 《计算机应用》2018,38(10):2850-2855
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。  相似文献   

18.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

19.
.基于网格梯度的多密度聚类算法*   总被引:1,自引:0,他引:1  
大多数现有的聚类算法都致力于发现任意形状、任意大小的类,但很难有效处理多密度的数据集。提出的算法利用网格聚类速度快的特点,先通过高斯平滑去除噪声,再采用网格梯度的思想找出隐藏在多密度数据集中的簇。算法在人工数据集上进行了实验,结果表明该算法能有效地去除噪声,发现多密度的簇,具有较好的聚类效果。  相似文献   

20.
提出了网格密度影响因子的概念,通过加权处理考虑了相邻网格的综合影响,能较好地代表当前网格相对密度,然后利用它来识别具有不同密度聚簇的高密度网格单元,并从高密度单元网格进行扩展,直至生成一个聚簇骨架,对边缘网格边界点进行识别和提取,提高网格聚类精度.通过实验验证,新算法能对不同大小与形状的聚簇进行聚类,可以识别具有多个密度的不同类组成的数据集,能捕获聚簇边界点,聚类效果较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号