首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 96 毫秒
1.
基于层次与划分方法的聚类算法研究   总被引:3,自引:1,他引:3  
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。  相似文献   

2.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。  相似文献   

3.
基于划分的模糊聚类算法   总被引:68,自引:1,他引:67       下载免费PDF全文
张敏  于剑 《软件学报》2004,15(6):858-868
在众多聚类算法中,基于划分的模糊聚类算法是模式识剐中最常用的算法类型之一.至今,献中仍不断有关于基于划分的模糊聚类算法的研究成果出现.为了能更为系统和深入地了解这些聚类算法及其性质,本从改变度量方式、改变约束条件、在目标函数中引入熵以及考虑对聚类中心进行约束等几个方面,对在C-均值算法的基础上得到的基于划分的模糊聚类算法作了综述和评价,对各典型算法的优缺点进行了实验比较分析.指出标准FCM算法被广泛应用的原因之一是它对数据的比例变化具有鲁棒性,而其他类似的算法对这种比例变化却很敏感.并以极大熵方法为例进行了比较实验.最后总结了基于划分的模糊聚类算法普遍存在的问题及其发展前景。  相似文献   

4.
为了更好地实现聚类,在汲取传统的划分算法、层次算法特性的基础上,提出了一种新的基于划分和层次的混合聚类算法(MPH),该算法将聚类的过程分为分裂和合并两个阶段,在分裂阶段反复采用k-means算法,将数据集划分为多个同质的子簇,在合并阶段采用凝聚的层次聚类算法。实验表明,该算法能够发现任意形状、任意大小的聚类,并且对噪声点不敏感。  相似文献   

5.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

6.
李寒  佟宁  陈峰 《计算机科学》2017,44(4):75-78
针对软件聚类侧重相似度测度而欠缺考虑实体和特征的特性的问题,提出一种基于层次聚类的软件架构恢复方法(HCSAR)。该方法有针对性地选取实体和特征,提出特征的多重加权策略,采用信息丢失度作为相似度测度,选取和设计软件聚类的客观和主观评估准则。与目前效果较好的软件聚类方法相比,HCSAR在聚类中期能生成更多的簇,主观判定数更低,能够通过调整关注点获得不同的聚类结果,使用设计的评估准则分析聚类结果还能有效辅助系统划分。  相似文献   

7.
8.
基于层次划分的最佳聚类数确定方法   总被引:20,自引:0,他引:20       下载免费PDF全文
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率.  相似文献   

9.
一种基于划分的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。  相似文献   

10.
一种基于蜂群原理的划分聚类算法*   总被引:1,自引:0,他引:1  
针对现有的大部分划分聚类算法受聚类簇的个数K的限制,提出一种基于蜂群原理的划分聚类算法。该方法通过引入蜂群采蜜机制,将聚类中心视为食物源,通过寻找食物源的自组织过程来实现数据对象的聚集。在聚类的过程中引入紧密度函数来评价聚类中心(局部),引入分离度函数来确定最佳聚类簇的个数(全局)。与传统的划分聚类算法相比,本算法无须指定聚类个数即可实现聚类过程。通过仿真实验表明,本文提出的算法不但对最佳聚类数有良好的搜索能力,而且有较高的准确率:算法时间复杂度仅为O(n*k3)(k<相似文献   

11.
针对传统层次聚类算法在处理大规模数据时效率低下的问题,提出一种快速层次聚类算法。根据数据点密度值的大小依次确定初始聚类中心,使用最小生成树算法对初始聚类中心间的相似度距离进行存储,寻找最优合并路径,从而减少更新距离矩阵的计算量和空间复杂度,并优化减法聚类中的收敛函数。在UCI数据集上的实验结果表明,该算法比传统聚类算法执行速度更快、效率更高,且随着数据量的增多,在时间消耗方面的优势更明显。  相似文献   

12.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。  相似文献   

13.
以用户击键特征为依据,提出了一种基于谱系聚类法的识别算法。该算法通过谱系聚类法对用户击键特征向量进行聚类分析,并形成各向量之间的谱系关系,从而由谱系关系来对击键特征向量进行识别。该算法的主要特点是使用欧氏距离进行分类,算法实现简单并且识别速度快。由于采用的聚类算法的简单性,其识别精度尚有待提高,因此该算法适用于击键识别的简单应用。  相似文献   

14.
借助目前丰富的网络资源,将同一主题的现存Ontology知识聚类,提供给领域专家或用户进行二次精化和集成是Ontology研究领域的一个重要课题.OWL是目前用于表示和交换Ontology信息的基本标准.本文从OWL的语义本质出发,考虑了知识之间的继承性及复杂类比较和模糊集运算的相似性,提出一种计算OWL文档语义相似性的方式,并和层次聚类算法集成完成了对OWL文档集的聚类实验.实验结果说明本文提出的算法对自动生成和手工建立的OWL文档集都有很好的效果。  相似文献   

15.
基于划分和凝聚层次聚类的无监督异常检测   总被引:2,自引:1,他引:2       下载免费PDF全文
李娜  钟诚 《计算机工程》2008,34(2):120-123
将信息熵理论应用于入侵检测的聚类问题,给出在混合属性条件下数据之间距离、数据与簇之间距离、簇与簇之间距离的定义,以整体相似度的聚类质量评价标准作为聚类合并的策略,提出了一种基于划分和凝聚层次聚类的无监督的异常检测算法。算法分析和实验结果表明,该算法具有较好的检测性能并能有效检测出未知入侵行为。  相似文献   

16.
针对传统谱聚类算法没有解决簇划分过程中,簇间交叉区域样本点对聚类效果有影响这个问题,提出一种基于局部协方差矩阵的谱聚类算法,主要介绍了一种新的计算样本之间相似度亲和矩阵的方法,即通过计算样本点之间的欧氏距离划分出小子集,计算小子集的协方差,通过设定阈值剔除交叉点,由剩下的点构造相似矩阵,对相似矩阵进行特征值分解,用经典的[k]-means算法对由特征向量组成的矩阵聚类。通过在Control等真实数据集上的实验结果表明,该算法在聚类准确率、标准互信息等指标上比较对比算法获得更优秀的效果。  相似文献   

17.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

18.
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-近邻方法的小簇合并机制,可以发现形状、尺寸更为复杂的簇。实验结果表明,该算法在保证执行效率的情况下取得了更好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号