共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
一种基于密度的快速聚类算法 总被引:52,自引:0,他引:52
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。 相似文献
3.
提出了一种基于空间单元单维运算的快速聚类算法SUSDC。该算法首先将被聚类的数据逐维划分成 若干个不相交的空间单元;然后基于空间距离阈值判定相邻的空间单元是否合并,直到全部维处理完毕。实验 结果验证了SUSDC算法运算速度快,能够处理不规则形状数据和高维数据,且具有对噪声数据不敏感的特点。 相似文献
4.
在减法聚类中一般只采用固定聚类半径训练聚类的做法,这样就可能得到过多或过少的聚类中心。为了提高聚类结果的最优性,从数据样本空间密度疏密程度考虑出发,改进了减法聚类算法,不仅改善了原来聚类半径只能固定的做法,而且适应于聚类大小不同时的数据聚类,使得调节参数更少,并结合模糊C-均值(FCM)聚类可以获得更为合理和准确的聚类个数和聚类中心,在一定程度上拓展了聚类算法的适用性。最后通过仿真证明了改进算法的有效性。 相似文献
5.
6.
一种基于密度的空间数据流在线聚类算法 总被引:2,自引:0,他引:2
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms. 相似文献
7.
针对基于密度的空间聚类及其变种提出了拓扑的概念。给出了聚类拓扑结构的定义,把簇定义为多种拓扑连通集合。此外,运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法。实例证明此算法有效。 相似文献
8.
针对密度峰值聚类(Density Peak Clustering, DPC)算法具有时空复杂度高而降低了对大规模数据集聚类的有效性,以及依靠决策图人工选取聚类中心等缺点,提出基于网格的密度峰值聚类(G-DPC)算法。采用基于网格的方式进行网格划分,用网格代表点替换网格单元整体;对各代表点聚类,通过改进的自适应方法选出核心网格代表点作为聚类中心;将剩余点归类,剔除噪声点。仿真实验验证了该算法对大规模数据集和高维数据集聚类的有效性。 相似文献
9.
一种基于网格和密度的数据流聚类算法 总被引:1,自引:0,他引:1
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类. 相似文献
10.
11.
针对网格密度聚类算法存在的网格宽度和密度阈值难以确定以及聚类精度不高的缺陷,提出了一种参数自适应的网格密度聚类算法。定义了数据集标准化离散度的概念,运用数据集的自然分布信息自适应地计算出每一维较优的分割宽度,对不同的密度阈值统计其噪声样本对象的数量,绘制了噪声曲线,从噪声曲线中获得最佳的密度阈值,而且增加了类簇边缘处理技术,进一步提高了聚类的质量。仿真实验表明,改进后的算法可获得更好的聚类效果。 相似文献
12.
一种基于网格密度的自适应聚类分析算法 总被引:1,自引:0,他引:1
在结合基于密度和基于网格的聚类算法优点的基础上,提出一种新的聚类算法.该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感,具有较低的时间和空间复杂性及较高的识别率.通过实验对该算法进行了性能比较和测试,显示了它在各方面的优越性. 相似文献
13.
针对现有入侵检测算法中普遍存在的对输入顺序敏感的问题,提出了将网格和密度相结合的聚类算法应用到入侵检测中。该算法在CLIQUE基础上进行了改进,将非密集单元向密集单元移动,克服了CLIQUE算法聚类结果精确性不高的缺点。该算法结合了网格聚类的低时空复杂度和密度聚类的良好抗噪性的特点。仿真实验中采用了KDD-CUP99的测试数据集,实验结果证实了该算法的有效性和可行性。 相似文献
14.
15.
16.
17.
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。 相似文献
18.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。 相似文献
19.