首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。  相似文献   

2.
以网格化数据集来减少聚类过程中的计算复杂度,提出一种基于密度和网格的簇心可确定聚类算法.首先网格化数据集空间,以落在单位网格对象里的数据点数表示该网格对象的密度值,以该网格到更高密度网格对象的最近距离作为该网格的距离值;然后根据簇心网格对象同时拥有较高的密度和较大的距离值的特征,确定簇心网格对象,再通过一种基于密度的划分方式完成聚类;最后,在多个数据集上对所提出算法与一些现有聚类算法进行聚类准确性与执行时间的对比实验,验证了所提出算法具有较高的聚类准确性和较快的执行速度.  相似文献   

3.
米源  杨燕  李天瑞 《计算机科学》2011,38(12):178-181
针对基于密度网格的数据流聚类算法中存在的缺陷进行改进,提出一种基于D-Strcam算法的改进算法NDD-Stream。算法通过统计网格单元的密度与簇的数目,动态确定网格单元的密度阂值;对位于簇边界的网格单元采用不均匀划分,以提高簇边界的聚类精度。合成与真实数据集上的实验结果表明,算法能够在数据流对象上取得良好的聚类质量。  相似文献   

4.
针对数据集中数据分布密度不均匀以及存在噪声点,噪声点容易导致样本聚类时产生较大的偏差问题,提出一种基于网络框架下改进的多密度SNN聚类算法。网格化递归划分数据空间成密度不同的网格,对高密度网格单元作为类簇中心,利用网格相对密度差检测出在簇边界网格中包含噪声点;使用改进的SNN聚类算法计算边界网格内样本数据点的局部密度,通过数据密度特征分布对噪声点进行类簇分配,从而提高聚类算法的鲁棒性。在UCI高维的数据集上的实验结果表明,与传统的算法相比,该算法通过网格划分数据空间和局部密度峰值进行样本类簇分配,有效地平衡聚类效果和时间性能。  相似文献   

5.
传统小波聚类算法标记满足密度阈值的连通单元为同一个簇,而不满足密度阈值的网格有可能存在属于簇的数据对象,数据的每维属性有时差距较大,不合适再划分均匀网格。为此,提出一种改进的小波聚类算法CWave Cluster,划分非均匀网格,进一步细化边界网格,对不满足密度阈值的网格进行处理,最终形成聚类。在指定的快速存取记录器(QAR)数据集上的实验结果表明,改进的小波聚类算法能根据数据特点划分网格,区分簇与簇的边界,有效解决QAR数据异常点检测问题。  相似文献   

6.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

7.
为了解决子空间聚类算法时间复杂度偏高和网格划分不太合理的问题,通过对数据空间进行网格划分并寻找稀疏区域来发现簇的边界,对算法的时间复杂度进行优化,达到对子空间聚类算法CLIQUE进行了优化和改进目的.优化算法采用了自适应的网格划分方法,提高了发现高维子空间的可能性.优化算法通过对剪枝方式的优化,有效地控制了算法的复杂度.实验结果表明,该算法在精度、时间复杂性等方面的性能良好.  相似文献   

8.
VDBSCAN:变密度聚类算法   总被引:5,自引:0,他引:5       下载免费PDF全文
传统的密度聚类算法不能识别并聚类多个不同密度的簇。对此提出了变密度聚类算法VDBSCAN,针对密度不稳定的数据集,可有效识别并同时聚类不同密度的簇,避免合并和遗漏。VDBSCAN算法的基本思想是:根据k-dist图和DK分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。4个二维数据集实验验证了VDB-SCAN算法的有效性,表明VDBSCAN算法可以有效地聚类密度不均匀的数据集,且参数Eps的自动选择方法也是有效的和健壮的。  相似文献   

9.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

10.
传统基于划分的聚类算法需要人工给定聚类数,且由于算法采取刚性划分,可能会导致将较大或延伸状的聚类簇分割的现象,导致错误的聚类结果。密度峰聚类是近年提出的一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,且能够发现非球形簇。将密度峰思想引入基于划分的聚类算法,提出一种基于密度峰和划分的快速聚类算法(DDBSCAN),该算法首先获取一组簇的核心对象(密度峰),用于描述簇的“骨骼”,而后将周围的点划分到最近的核心对象,最后通过判断划分边界处的密度情况合并簇。实验证明,该算法能有效地适应任意形状、大小不一的数据集,与传统基于密度的聚类算法相比收敛速度更快。  相似文献   

11.
在居住热区分析应用中,已有的CLIQUE算法密度阈值初始化多采用主观性较强的经验值,容易对聚类结果造成不良影响.针对该问题提出了一种自适应密度阈值选取的CLIQUE算法(APS-CLIQUE,Adaptive Parameter Selection-CLIQUE),并对聚类边界进行了优化处理.该算法首先使用四分位数箱型模型排除数据形态两端对结果的干扰,解决密度阈值自适应问题;其次通过边界网格的判定,提高了聚类边界精度.使用UCI标准数据集、成都市出租车GPS轨迹浮动数据集进行了对比实验,实验结果表明本文算法的Dunn指数较CLIQUE算法分别提高了26.53%、28.66%.  相似文献   

12.
An ensemble of clustering solutions or partitions may be generated for a number of reasons. If the data set is very large, clustering may be done on tractable size disjoint subsets. The data may be distributed at different sites for which a distributed clustering solution with a final merging of partitions is a natural fit. In this paper, two new approaches to combining partitions, represented by sets of cluster centers, are introduced. The advantage of these approaches is that they provide a final partition of data that is comparable to the best existing approaches, yet scale to extremely large data sets. They can be 100,000 times faster while using much less memory. The new algorithms are compared against the best existing cluster ensemble merging approaches, clustering all the data at once and a clustering algorithm designed for very large data sets. The comparison is done for fuzzy and hard-k-means based clustering algorithms. It is shown that the centroid-based ensemble merging algorithms presented here generate partitions of quality comparable to the best label vector approach or clustering all the data at once, while providing very large speedups.  相似文献   

13.
Fuzzy Ants and Clustering   总被引:2,自引:0,他引:2  
A swarm-intelligence-inspired approach to clustering data is described. The algorithm consists of two stages. In the first stage of the algorithm, ants move the cluster centers in feature space. The cluster centers found by the ants are evaluated using a reformulated fuzzy C-means (FCM) criterion. In the second stage, the best cluster centers found are used as the initial cluster centers for the FCM algorithm. Results on 18 data sets show that the partitions found using the ant initialization are better optimized than those obtained from random initializations. The use of a reformulated fuzzy partition validity metric as the optimization criterion is shown to enable determination of the number of cluster centers in the data for several data sets. Hard C-means (HCM) was also used after reformulation, and the partitions obtained from the ant-based algorithm were better optimized than those from randomly initialized HCM.  相似文献   

14.
CFSFDP是基于密度的新型聚类算法,可聚类非球形数据集,具有聚类速度快、实现简单等优点。然而该算法在指定全局密度阈值dc时未考虑数据空间分布特性,导致聚类质量下降,且无法对多密度峰值的数据集准确聚类。针对以上缺点,提出基于网格分区的CFSFDP(简称GbCFSFDP)聚类算法。该算法利用网格分区方法将数据集进行分区,并对各分区进行局部聚类,避免使用全局dc,然后进行子类合并,实现对数据密度与类间距分布不均匀及多密度峰值的数据集准确聚类。两个典型数据集的仿真实验表明,GbCFSFDP算法比CFSFDP算法具有更加精确的聚类效果。  相似文献   

15.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

16.
针对网格密度聚类算法存在的网格宽度和密度阈值难以确定以及聚类精度不高的缺陷,提出了一种参数自适应的网格密度聚类算法。定义了数据集标准化离散度的概念,运用数据集的自然分布信息自适应地计算出每一维较优的分割宽度,对不同的密度阈值统计其噪声样本对象的数量,绘制了噪声曲线,从噪声曲线中获得最佳的密度阈值,而且增加了类簇边缘处理技术,进一步提高了聚类的质量。仿真实验表明,改进后的算法可获得更好的聚类效果。  相似文献   

17.
Clustering by scale-space filtering   总被引:12,自引:0,他引:12  
In pattern recognition and image processing, the major application areas of cluster analysis, human eyes seem to possess a singular aptitude to group objects and find important structures in an efficient and effective way. Thus, a clustering algorithm simulating a visual system may solve some basic problems in these areas of research. From this point of view, we propose a new approach to data clustering by modeling the blurring effect of lateral retinal interconnections based on scale space theory. In this approach, a data set is considered as an image with each light point located at a datum position. As we blur this image, smaller light blobs merge into larger ones until the whole image becomes one light blob at a low enough level of resolution. By identifying each blob with a cluster, the blurring process generates a family of clustering along the hierarchy. The advantages of the proposed approach are: 1) The derived algorithms are computationally stable and insensitive to initialization and they are totally free from solving difficult global optimization problems. 2) It facilitates the construction of new checks on cluster validity and provides the final clustering a significant degree of robustness to noise in data and change in scale. 3) It is more robust in cases where hyperellipsoidal partitions may not be assumed. 4) it is suitable for the task of preserving the structure and integrity of the outliers in the clustering process. 5) The clustering is highly consistent with that perceived by human eyes. 6) The new approach provides a unified framework for scale-related clustering algorithms derived from many different fields such as estimation theory, recurrent signal processing on self-organization feature maps, information theory and statistical mechanics, and radial basis function neural networks  相似文献   

18.
一种协同的可能性模糊聚类算法   总被引:1,自引:0,他引:1  
模糊C-均值聚类(FCM)对噪声数据敏感和可能性C-均值聚类(PCM)对初始中心非常敏感易导致一致性聚类。协同聚类算法利用不同特征子集之间的协同关系并与其他算法相结合,可提高原有的聚类性能。对此,在可能性C-均值聚类算法(PCM)基础上将其与协同聚类算法相结合,提出一种协同的可能性C-均值模糊聚类算法(C-FCM)。该算法在改进的PCM的基础上,提高了对数据集的聚类效果。在对数据集Wine和Iris进行测试的结果表明,该方法优于PCM算法,说明该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号