首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 161 毫秒
1.
一种半监督K均值多关系数据聚类算法   总被引:1,自引:0,他引:1  
高滢  刘大有  齐红  刘赫 《软件学报》2008,19(11):2814-2821
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

2.
雷小锋  谢昆青  林帆  夏征义 《软件学报》2008,19(7):1683-1692
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率.  相似文献   

3.
随着互联网应用的普及和深入,涌现了许多新的应用场景和数据类型,导致许多经典的聚类算法不能有效地适应新的发展形势,成为数据挖掘中的棘手问题和研究热点,为此提出一种新颖的基于类中心与边界自寻优的数据聚类算法.该算法引入数据点“距离半径”分布矩阵R及其“距离半径累计”分布矩阵ΣR概念表征数据聚合度,并依据广度优先原则自寻优R与ΣR中皆为最小的数据点作为类中心;同时,提出“距离半径偏导”分布矩阵R’,描述簇类之间的松散度,并采用广度优先原则自寻优矩阵R’中的突变跃迁增长点,作为簇类之间的分界.通过经典的Aggregation聚类数据集的仿真实验测试,表明该算法能够有效地对多种形状、大小和不同密度分布的数据集进行聚类分析,能较好地识别出孤立点和噪声,具有较高的鲁棒性和分析精度.  相似文献   

4.
本文研究加速K-medoids聚类算法,首先以PAM(Partitioning Around Medoids)、TPAM(Triangular Inequality Elimination Criteria PAM)算法为基础,给出两个加速引理,并基于中心点之间距离不等式提出两个新加速定理.同时,以On+K2)额外内存空间开销辅助引理、定理的结合而提出加速SPAM(Speed Up PAM)聚类算法,使得K-medoids聚类算法复杂度由OKn-K2)降低至O((n-K2).在实际及人工模拟数据集上的实验结果表明,相对PAM、TPAM、FKMEDOIDS(Fast K-medoids)等参考算法均有改进,运行时间比PAM至少提升0.828倍.  相似文献   

5.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

6.
多层核心集凝聚算法   总被引:3,自引:0,他引:3  
许多经典的聚类算法,如平均链接,K-means,K-medoids,Clara,Clarans等,都是利用单一的聚类中心进行聚类.为克服单一聚类中心只能描述凸状聚类的缺陷,CURE,DBSCAN等算法使用多个代表点(或稠密点)表述任意形状的聚类结构,但仍难以聚类重叠和噪声数据.为此,提出一种基于多层聚类中心(称为核心集)的凝聚聚类算法(MulCA).该算法使用了多层核心集表述聚类结构,使得每一层数据集向其核心集凝聚.同时,上层的核心集自动成为下层的数据集.随着每层核心集规模按α比例迅速减少,控制了凝聚过程的迭代次数.此外,引入了基于随机采样计算ε-核心集(RBC)的技巧,将MulCA算法应用于大规模数据集.大量的数值实验充分验证了MulCA算法的有效性.  相似文献   

7.
针对模糊聚类需要预知最佳聚类个数的问题,提出了一种新的基于隶属比的聚类有效性指标Vnew,首先根据经典有效性指标的设计思路,充分考虑数据集合的隶属度矩阵特征和几何空间分布,通过重新定义类内距和类间距的方式,推导出基本的有效性指标;其次,定义隶属比的概念,放大基本有效性指标的计算值;最后,为了避免隶属比对有效性指标造成过分影响而失去意义,引入分类个数进行抑制. 理论分析和仿真实验表明,通过对相同数据集进行分析处理,与经典的XB指标相比Vxb,新指标Vnew具有更高的准确率和可靠性,在类间有重叠数据的情况下也能够做出正确的划分,具有一定的推广价值.  相似文献   

8.
丁世飞  徐晓  王艳茹 《软件学报》2020,31(11):3321-3333
密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.  相似文献   

9.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

10.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。  相似文献   

11.
在传统确定数据集聚类数算法原理的基础上,提出一种新的算法——MHC算法。该算法采用自底向上的策略生成不同层次的数据集划分,计算每个层次的聚类划分质量,通过聚类质量选择最佳的聚类数。还设计一种新的有效性指标——BIP指标,用于衡量不同划分的聚类质量,该指标主要依托数据集的几何结构。实验结果表明,该算法能准确地确定多维数据集中的最佳聚类数。  相似文献   

12.
Classical clustering methods, such as partitioning and hierarchical clustering algorithms, often fail to deliver satisfactory results, given clusters of arbitrary shapes. Motivated by a clustering validity index based on inter-cluster and intra-cluster density, we propose that the clustering validity index be used not only globally to find optimal partitions of input data, but also locally to determine which two neighboring clusters are to be merged in a hierarchical clustering of Self-Organizing Map (SOM). A new two-level SOM-based clustering algorithm using the clustering validity index is also proposed. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data in a better way than classical clustering algorithms on an SOM.  相似文献   

13.
聚类分析是数据挖掘的重要任务之一,而具有易早熟与收敛速度慢等缺陷的传统生物地理优化算法(Biogeography-Based Optimization, BBO)很难满足具有NP(Non-deterministic Polynomial)性质的复杂聚类问题需求,于是提出了一种基于混合生物地理学优化的聚类算法(Mixed Biogeography-Based Optimization, MBBO),该算法构造了一个基于梯度下降局部最优贪心搜索的新迁移算子,以聚类目标函数值作为个体适应度进行数据集内隐簇结构寻优。通过在4个标准数据集(Iris、Wine、Glass与Diabetes)的实验,结果表明MBBO算法相对于传统的优化算法具有更好的优化能力和收敛度,能发现更高质量的簇结构模式。  相似文献   

14.
结合模糊聚类的类内紧致性和类间分离性信息,提出一种新的模糊聚类有效性指标。该指标能够确定由模糊C-均值算法(FCM)所得模糊划分的最优划分和最佳聚类数。在1个人造数据集和4个真实数据集上进行对比实验,结果表明该指标性能的优越性。  相似文献   

15.
自适应的软子空间聚类算法   总被引:6,自引:0,他引:6  
陈黎飞  郭躬德  姜青山 《软件学报》2010,21(10):2513-2523
软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数,且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时,最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性.  相似文献   

16.
K-means算法最佳聚类数确定方法   总被引:10,自引:0,他引:10  
K-means聚类算法是以确定的类数k为前提对数据集进行聚类的,通常聚类数事先无法确定。从样本几何结构的角度设计了一种新的聚类有效性指标,在此基础上提出了一种新的确定K-means算法最佳聚类数的方法。理论研究和实验结果验证了以上算法方案的有效性和良好性能。  相似文献   

17.
一种基于语料特性的聚类算法   总被引:3,自引:0,他引:3  
曾依灵  许洪波  吴高巍  白硕 《软件学报》2010,21(11):2802-2813
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法。CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力。在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚  相似文献   

18.
一个新的模糊聚类有效性指标   总被引:3,自引:1,他引:2  
孔攀  邓辉文  黄艳艳  江欢 《计算机工程》2009,35(12):143-144
提出一个新的模糊聚类有效性指标。该指标能确定由模糊C-均值算法(FCM)所得模糊划分的最优划分和最优聚类数,结合了模糊聚类的紧致性和分离性信息,用类内加权平方误差和计算紧致性,用类间相似度计算分离性。在3个人造数据集和3个真实数据集上进行对比实验,结果证明该指标的性能优于其他有效性指标。  相似文献   

19.
孙林  秦小营  徐久成  薛占熬 《软件学报》2022,33(4):1390-1411
密度峰值聚类(density peak clustering, DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号