共查询到20条相似文献,搜索用时 78 毫秒
1.
基于粒计算的K-medoids聚类算法 总被引:1,自引:0,他引:1
传统K-medoids聚类算法的聚类结果随初始中心点不同而波动,且计算复杂度较高不适于处理大规模数据集;快速K-medoids聚类算法通过选择合适的初始聚类中心改进了传统K-medoids聚类算法,但是快速K-medoids聚类算法的初始聚类中心有可能位于同一类簇。为克服传统K-medoids聚类算法和快速K-medoids聚类算法的缺陷,提出一种基于粒计算的K-medoids聚类算法。算法引入粒度概念,定义新的样本相似度函数,基于等价关系产生粒子,根据粒子包含样本多少定义粒子密度,选择密度较大的前K个粒子的中心样本点作为K-medoids聚类算法的初始聚类中心,实现K-medoids聚类。UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明了基于粒计算的K-medoids聚类算法能得到更好的初始聚类中心,聚类准确率和聚类误差平方和优于传统K-medoids和快速K-medoids聚类算法,具有更稳定的聚类结果,且适用于大规模数据集。 相似文献
2.
《计算机科学与探索》2016,(2):220-229
模糊C均值(fuzzy C-means,FCM)聚类算法是一种常用的基于目标函数最小化的聚类算法。目前已经提出了相当数量的聚类算法是对模糊C均值聚类算法的改进,例如AFCM算法、GK算法等。对最近发表的基于Bregman距离的模糊聚类算法进行了改进,通过在FCM模糊聚类框架中引入Total-Bregman距离提升了聚类算法的聚类性能。同时对基于Total-Bregman距离的模糊聚类算法的收敛性质进行了理论分析。实验部分对来自UCI数据库的几个数据集进行了聚类,证明了算法的有效性和收敛性。 相似文献
3.
4.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。 相似文献
5.
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。 相似文献
6.
数据挖掘中基于密度和距离聚类算法设计 总被引:2,自引:0,他引:2
介绍聚类分析的基本概念,并说明了关于聚类分析相关研究工作。对聚类、数据对象、对象的密度、簇的密度、距离和ε-邻域等基本概念进行了描述。在此基础上提出并分析了基于密度和距离聚类算法,并与其他聚类方法作了比较,显示了其优越性。 相似文献
7.
数据挖掘中基于密度和距离聚类算法设计 总被引:1,自引:0,他引:1
介绍聚类分析的基本概念,并说明了关于聚类分析相关研究工作。对聚类、数据对象、对象的密度、簇的密度、距离和ε-邻域等基本概念进行了描述。在此基础上提出并分析了基于密度和距离聚类算法,并与其他聚类方法作了比较,显示了其优越性。 相似文献
8.
基于网格距离的高精度聚类算法 总被引:2,自引:0,他引:2
为了提高基于网格聚类技术的聚类精度和效率,提出一种新的基于网格距离的高精度聚类算法。该算法一方面通过参考网格在逻辑空间的相对距离进行聚类,从而弥补了大多数计算网格之间距离的算法中需要大量数学运算的不足,另一方面,提出了一种新的边界点处理技术。用实际数据集进行的,实验结果表明,该技术能够有效地提取有意义的边界点,运行速度快、聚类精度高。 相似文献
9.
《模式识别与人工智能》2014,(5)
层次聚类算法在数据挖掘领域有着广泛应用,现有的层次聚类算法都依赖于对称距离定义.针对聚类对象的非对称距离下的层次聚类展开研究,提出完整的非对称距离下的层次聚类算法,给出聚类对象选择因子,并定义相应的计算方法.文中提出不同簇之间的合并方法,形成非对称距离下的单连接、全连接等算法.采集社会化书签系统中的热点标签,基于共现次数定义非对称距离,对所提出的算法进行大量实验,实验结果表明聚类结果与实际结果具有较高的一致性.对算法进行量化指标分析的结果也表明非对称层次聚类算法具有良好性能. 相似文献
10.
刘凤芹 《计算机光盘软件与应用》2012,(21):60-61
聚类分析在数据挖掘领域中是一个非常重要的研究课题,该文阐述了聚类算法的基本原理和性能要求,并依据算法思想的不同把聚类算法分为五类,详细介绍了每一类的算法思想、优缺点及典型算法,有利于用户对聚类算法的选择和研究者对聚类算法的改进研究,最后探讨了聚类算法今后的发展趋势。 相似文献
11.
一种基于层次距离计算的聚类算法 总被引:6,自引:0,他引:6
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algorithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果. 相似文献
12.
13.
基于新的距离度量的K-Modes聚类算法 总被引:5,自引:1,他引:4
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的. 相似文献
14.
K-medoids算法对初始中心点敏感,不能有效地对动态数据进行聚类,且需要对相关的隐私数据进行保护。针对这些问题,提出了基于差分隐私保护的KDCK-medoids动态聚类算法。该算法在采用差分隐私保护技术的基础上将KD-树优化选取出的k个聚类中心和增量数据相结合建立新的KD-树,然后采用近邻搜索策略将增量数据分配到与其相应的聚类簇中,从而完成最终的动态聚类。通过实验分别对小数据集和多维的大数据集的聚类准确率及运行时间进行了分析,同时也对采用差分隐私保护技术的KDCK-medoids算法在不同数据集上的有效性进行了评估。实验结果表明,基于差分隐私保护的KDCK-medoids动态聚类算法能够在实现隐私保护的同时快速高效地处理增量数据的动态聚类问题。 相似文献
15.
为了分析给定外界条件下的飞机燃油消耗,提出了一种基于距离最大法的邻域搜索K-medoids聚类算法(IK-medoids)。基于距离最大的样本不可能被分到同一类簇的思想,该算法首先采用距离最大法选取初始中心,并根据剩余样本与初始中心之间的标准欧氏距离计算初始中心邻域;然后利用提出的一种近邻搜索策略进行初始中心的迭代更新,直到中心点不再发生变化。在同一机型和航段、不同大小的数据集上进行对比实验,根据起飞重量、巡航高度、实飞距离以及飞行环境等特征对飞机油耗进行精准分类。实验结果表明:相对于传统的改进K-medoids算法,IK-medoids算法在有效缩短分类时间的同时保证了聚类准确率,为进一步分析飞行过程中的燃油消耗提供了新视角。 相似文献
16.
在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。 相似文献
17.
基于流形距离的人工免疫半监督聚类算法 总被引:1,自引:1,他引:0
将流形距离作为样本间相似性的基本度量测度,加入成对约束信息,通过近部传播得出新的度量矩阵。把聚
类问题转化为一优化数学模型。采用克隆选择算法求解这个优化模型,得出最后的聚类结果,通过人工数据集和UCI
标准数据集验证了这种方法具有较高的准确性。 相似文献
18.
阐述了CLARANS(Clustering Large Applications based on RANdomized Search-基于随机搜索的大规模应用聚类)聚类算法的工作原理,同时为了解决CLARANS聚类挖掘算法效率低,费时长等问题,本文将遗传算法的思想引入CLAR-ANS算法,利用遗传算法的隐并行性对其进行改进,提出一种GA-CLARANS算法,有效地降低了聚类所花费的时间。实验证明GA—CLARANS算法在运行效率方面相比CLARANS算法有较好的表现,是可行且有效的。 相似文献
19.