首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
半监督的自动聚类   总被引:1,自引:0,他引:1  
潘章明 《计算机应用》2010,30(10):2614-2617
基于进化算法的自动聚类方法在处理聚类结构比较松散的数据集时,存在聚类准确性不高、收敛速度慢的缺陷,为此提出一种半监督的自动聚类算法。该算法从调整染色体的解码过程入手,首先从染色体中分离出聚类数和所有的质心,然后使用最近邻规则滤去部分偏离数据集分布区域的无效质心,最后嵌入先验信息辅助K-均值方法对剩余的质心聚类,进一步优化染色体的解码结果。实验结果表明,该算法对聚类结构紧密或松散的数据集均可给出较精确的聚类结果。  相似文献   

2.
自适应仿射传播聚类   总被引:42,自引:4,他引:42  
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

3.
仿射传播算法是一种快速有效的聚类方法,但其聚类结果的不稳定性影响了聚类性能。对此,提出基于近邻的仿射传播算法(AP-NN),通过仿射传播算法产生初始簇,并从中选择代表簇对非代表簇的样本进行近邻聚类。在时间序列数据集上的实验结果表明,AP-NN模型算法能够产生较好的聚类结果,适用于聚类分析。  相似文献   

4.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

5.
近邻传播聚类(AP)方法是近年来出现的一种广受关注的聚类方法,在处理多类、大规模数据集时,能够在较短的时间得到较理想的结果,因此与传统方法相比具有很大的优势。但是对于一些聚类结构复杂的数据集,往往不能得到很好的聚类结果。通过分析数据的聚类特性,设计了一种可以根据数据结构自动调整参数的核函数,数据集在其映射得到的核空间中线性可分或几乎线性可分,对该核空间中的数据集进行近邻传播聚类,有效提高了AP聚类的精确度和速度。算法有效性分析以及仿真实验验证了所提算法在处理大规模复杂结构数据集上的性能优于原始AP算法。  相似文献   

6.
近邻传播算法(Affinity Propagation)是一种具有较高准确度的聚类算法,但是其具有较高的时间复杂度,且无法有效聚类结构松散数据,针对这两个问题,提出了一种基于MapReduce的半监督近邻传播算法(MR-SAP)。算法首先利用MapReduce编程框架,在各个数据节点上运行AP算法,得到局部的聚类中心,以及代表每一个局部聚类中心成为全局聚类中心可能性的决策系数,然后综合局部聚类中心进行全局的AP聚类,其中初始参考度的选取依据输入的决策系数,最后通过引入IGP聚类评价指标比较聚类效果,引导算法向结果最优方向运行。实验结果表明该算法在处理不同大小、不同类型数据集时均具有良好的效率和扩展性,且具有较高的聚类精度。  相似文献   

7.
仿射传播聚类是一种快速有效的聚类方法。但对高维数据进行聚类时,由于数据信息的重叠,聚类结果往往会有较大误差。针对这个问题,提出了把主元分析(PCA)和仿射传播(AP)聚类相结合的PCA-AP算法,在保留原变量绝大部分信息的情况下对数据进行降维处理,然后在低维空间中用仿射传播聚类的方法进行聚类。由于剔除了冗余信息,算法得到的分类结果更加准确。实验结果表明该算法是有效的。  相似文献   

8.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。  相似文献   

9.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位.虽然目前已有很多数据聚类算法,但精度仍不够理想.文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度.具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类.将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法.  相似文献   

10.
何红洲  周明天 《计算机工程》2013,(12):181-185,190
已有的仿射传播聚类算法不能很好地反映复杂蛋白质序列本身的聚类结构。为此,提出一种基于哈夫曼判定的蛋白质分类方法。在计算广义置换式匹配相似度的基础上,使用已有的自适应仿射传播算法聚类蛋白质序列。采用哈夫曼编码方法,通过限制平均码长使聚类结果能反映蛋白质序列家族的聚类结构。在蛋白质同源聚类数据库和蛋白质结构分类数据库的6个数据集上进行实验,结果表明,该方法与adAP、谱聚类、SMS和TribeMCL方法相比,不仅能获得更接近于数据集家族的聚类数目及更紧凑的聚类结构,而且F—measure指标平均估值分别高出19.67%、8.7%、9.5%和43.51%。  相似文献   

11.
针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。  相似文献   

12.
基于近邻传播算法的半监督聚类   总被引:31,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

13.
多尺度的谱聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种多尺度的谱聚类算法。与传统谱聚类算法不同,多尺度谱聚类算法用改进的k-means算法对未经规范的La-placian矩阵的特征向量进行聚类。与传统k-means算法不同,改进的k-means算法提出一种新颖的划分数据点到聚类中心的方法,通过比较聚类中心与原点的距离和引入尺度参数来计算数据点与聚类中心的距离。实验表明,改进算法在人工数据集上取得令人满意的结果,在真实数据集上聚类结果较优。  相似文献   

14.
为了提高K-medoids算法的精度和稳定性,并解决K-medoids算法的聚类数目需要人工给定和对初始聚类中心点敏感的问题,提出了基于密度权重Canopy的改进K-medoids算法。该算法首先计算数据集中每个样本点的密度值,选择密度值最大的样本点作为第1个聚类中心,并从数据集中删除这个密度簇;然后通过计算剩下样本点的权重,选择出其他聚类中心;最后将密度权重Canopy作为K-medoids的预处理过程,其结果作为K-medoids算法的聚类数目和初始聚类中心。UCI真实数据集和人工模拟数据集上的仿真实验表明,该算法具有较高的精度和较好的稳定性。  相似文献   

15.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

16.
Clustering is an important unsupervised learning technique widely used to discover the inherent structure of a given data set. Some existing clustering algorithms uses single prototype to represent each cluster, which may not adequately model the clusters of arbitrary shape and size and hence limit the clustering performance on complex data structure. This paper proposes a clustering algorithm to represent one cluster by multiple prototypes. The squared-error clustering is used to produce a number of prototypes to locate the regions of high density because of its low computational cost and yet good performance. A separation measure is proposed to evaluate how well two prototypes are separated. Multiple prototypes with small separations are grouped into a given number of clusters in the agglomerative method. New prototypes are iteratively added to improve the poor cluster separations. As a result, the proposed algorithm can discover the clusters of complex structure with robustness to initial settings. Experimental results on both synthetic and real data sets demonstrate the effectiveness of the proposed clustering algorithm.  相似文献   

17.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号