首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
可能性模糊C-均值聚类新算法   总被引:17,自引:4,他引:13       下载免费PDF全文
模糊C-均值聚类(FCM)对噪声数据敏感和可能性C-均值聚类(PCM)对初始类中心非常敏感易导致一致性聚类.可能性模糊C-均值聚类(PFCM)综合了FCM和PCM算法并且克服了这些缺点.但是PFCM必须先运行FCM来计算参数.提出一种新的PCM算法,新的PCM算法利用协方差矩阵来计算参数衡量了数据集的紧凑程度且无须先运行FCM,在新的PCM和FCM基础上提出了新PFCM算法,该算法无须事先运行FCM以计算参数,减少了算法运算时间.对数据集的测试实验结果表明了提出的新算法能同时产生模糊隶属度和典型值,减少聚类时间,同时具有更好的分类准确率.  相似文献   

2.
基于样本加权的可能性模糊聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
刘兵  夏士雄  周勇  韩旭东 《电子学报》2012,40(2):371-375
可能性模糊聚类算法解决了噪音敏感和一致性聚类问题,但算法假定每个待分析样本对聚类的贡献相同,导致离群点或噪声点对算法的干扰较强,算法迭代次数过大.为此,提出一种基于样本加权的可能性模糊聚类算法,新算法具有更快的收敛速度,对标准数据集和人工数据集加噪后的测试结果表明,该算法具有更强的鲁棒性,在有效降低时间复杂度的同时能够...  相似文献   

3.
针对传统谱聚类算法初始化敏感引起的聚类效率与正确率不稳定问题,给出一种改进的谱聚类算法.该算法首先构造Laplacian矩阵并得到其特征谱空间,然后引入粒子群优化的FCM算法在该空间中寻找最优粒子作为初始类簇中心用以解决敏感问题.实验表明,与传统谱聚类算法比较,该算法的聚类结果更稳定,在较高维数据集上聚类效率与正确率有明显提高.  相似文献   

4.
随机森林是近些年发展起来的新集成学习算法,具有较好的分类准确率。针对该算法计算复杂度较高的不足,提出了一种基于谱聚类划分的随机森林算法。首先,利用聚类效果较好的谱聚类算法对原始样本集的每一类进行聚类处理。然后,在每一聚类簇中随机选取一个样本作为代表,组成新训练样本集合。最后,在新训练样本集上训练随机森林分类器。该算法通过谱聚类技术对原始样本进行了初步划分,将位置相近的多个样本用簇内的一个样本代表,较大程度地减少了训练样本的个数。在Corel Image图像识别数据集上的实验表明,算法可以用较少的分类时间达到较高的分类精度。  相似文献   

5.
基于监督信息特性的主动半监督谱聚类算法   总被引:4,自引:0,他引:4  
王娜  李霞 《电子学报》2010,38(1):172-176
 半监督聚类是利用少部分监督信息辅助大量未标签数据进行非监督的学习,其聚类性能的改善依赖于监督信息,因此挖掘适合半监督聚类的监督信息非常关键.提出了一种基于监督信息特性的主动学习策略,即找出同一类中距离相对较远的数据对象对和不同类中距离相对较近的数据对象对组成监督信息,并将其引入谱聚类算法,构建新颖的主动半监督谱聚类算法ASSC(Active Semi-supervised Spectral Clustering).利用该监督信息调整谱聚类中点与点之间的距离矩阵,使类内各点紧聚,类间散布.通过对UCI基准数据集以及人工数据集的实验结果表明,ASSC算法优于采用随机选取监督信息的谱聚类性能.  相似文献   

6.
燕京京  王鹏  范家兵  黄焱 《电子学报》2016,44(2):405-412
提出了一种基于量子谐振子模型的聚类中心选取算法.该算法以量子谐振子波函数从高能态到基态过程中的概率变化过程为理论模型来描述聚类问题中数据对象向聚类中心点的聚集行为,能够快速查找到最优的聚类个数及较好的聚类中心点所在的网格;数据读入网格结构之后,算法的处理时间与数据集规模无关.实验结果表明:CCSA-QHOM算法较适合于处理每个子类局部区域的网格密度分布呈单峰特性的数据集的聚类中心选择问题.  相似文献   

7.
《现代电子技术》2019,(8):145-150
针对传统K-means聚类算法对高维非线性数据聚类效果不佳、聚类时间消耗大的问题,文中对高维数据的预处理进行研究,提出一种基于深度信念网络(DBN)的K-means聚类算法(DBNOK)。此算法首先使用多层受限玻尔兹曼机(RBM)对数据进行特征学习,并将学习到的隐含特征进行K-means相关参数和初始聚类中心进行交叉迭代优化。用DBNOK算法分别在低维数据集和高维数据集上进行实验,结果表明,DB-NOK算法聚类准确率优于标准的K-means算法和模糊均值聚类(FCM)算法。  相似文献   

8.
一种新的快速混合聚类算法   总被引:2,自引:1,他引:1  
在汲取了传统划分、层次聚类方法优点的基础上,结合图搜索技术,提出了一种新的快速混合聚类算法.该算法主要分为三个步骤:首先将整个数据集"压碎",生成固定数量的原子级聚类;然后处理孤立点;最后采用图搜索技术生成聚类.该算法只需一个参数,能识别任意形状、大小的聚类,时间复杂度在最坏情况下为nn~(1/2).实验表明该算法是有效的.  相似文献   

9.
一种基于高斯分布的自适应 DBSCAN 算法   总被引:1,自引:0,他引:1  
针对传统的 DBSCAN 算法只能依靠经验来设置阈值(min Pts ,Eps)和无法对多密度数据集进行有效聚类的不足,提出了一种可适用于所有密度分布特征的数据集的基于高斯分布的自适应 DBSCAN 算法.该算法根据数据集的特点寻找最大的聚类效果指数(CEI)来确定 min Pts ,通过 Distk 图的层次数确定 Eps 个数并通过高斯分布中的参数估计来确定每个密度层次 Eps 大小,最后用所求得阈值进行聚类.将该算法与传统的 DBSCAN 算法分别应用于单密度数据集和多密度数据集,结果显示该算法更有效.  相似文献   

10.
《现代电子技术》2017,(19):177-181
传统聚类算法实现大数据集聚类时,耗费大量的时间和内存,无法适应大数据流的动态性,聚类稳定性较差。因此,提出基于优先聚类和高斯混合模型树的递增聚类方法。采用优先聚类算法对大数据集进行优先聚类,获取典型数据集,降低大数据集的数据复杂度,采用高斯混合模型树的递增聚类算法,将典型数据集中的数据插入到高斯混合模型树内,塑造数据集的高斯混合模型树,树的叶子节点和非叶子节点分别同单高斯数据分布和高斯混合模型分布对应,基于插入结果对高斯混合模型树实施调整,检测插入到模型树内的数据是否需要删除,并完成数据的删除操作,采用广度优先方法获取最佳的树节点作为最终的聚类结果。实验结果表明该算法取得了很好的效果,具有较高的可扩展性和稳定性。  相似文献   

11.
谱聚类算法通常是采用高斯核作为相似性度量,并利用所有可用的特征来构建具有欧氏距离的相似度矩阵,数据集复杂度会影响其谱聚类性能,因此该文提出一种基于公理化模糊子集(AFS)的改进谱聚类算法。首先结合AFS算法,利用识别特征来衡量更合适的数据成对相似性,生成更强大的亲合矩阵;再有效地利用Nystr?m采样算法,计算采样点间以及采样点和剩余点间的相似度矩阵去降低计算的复杂度;最后通过在不同数据集以及图像分割上进行实验,证明了提出算法的有效性。  相似文献   

12.
针对当前聚类算法应用于大规模多类别数据集中时,计算量较大,且算法性能严重依赖于K值的不足,提出一种改进的加速K均值聚类算法。算法主要由两种策略组成:一是基于质心下界(PLB)的跳跃过程,新引入称为质心的固定点来计算对象和矩心间距离的下界,避免了常见聚类算法在收敛早期过程中的距离计算过程;二是基于不变矩心对(ICP)的跳跃过程,如果矩心更新步骤完成后被分配及未被分配矩心的位置保持不变,则维持对象分配策略不变且无需计算与未被分配矩心之间的距离。此外,还给出了将本文算法与Hamerly算法相结合的拓展算法以进一步提升聚类加速效果。对大规模高维图像数据集进行了仿真实验,结果表明,与Hamerly算法相比,本文算法在获得相同聚类效果的同时,极大地压缩了距离计算量。当K值较大时,本文算法的平均压缩率更高,平均耗时更少。  相似文献   

13.
针对传统K—Means聚类算法需要用户输入聚类数目的缺点,对K—Means聚类算法进行了改进,提出使用一个有效指数来克服这个问题,该算法不需要背景知识,自动聚类,提高了聚类的准确性。该算法还可以根据数据量的大小确定合适的步长,增强了适应性。通过将该算法应用于网站日志数据中对用户进行聚类,验证了算法的有效性。  相似文献   

14.
高光谱图像聚类问题一直是图像处理领域的研究热点。谱聚类算法是最流行的聚类算法之一,但其计算复杂度较大,难以处理大规模的高光谱图像数据。由于二叉树能够较快地选取锚点,因此基于二叉树锚点图,充分利用高光谱图像的光谱和空间特性,可保证聚类性能并降低计算复杂度。然而,该聚类算法一般采用有核的聚类方法,因此不可避免地引入了参数调节。在二叉树锚点选取的基础上,提出了一种基于二叉树锚点的高光谱快速聚类算法,该算法创新性地将二叉树锚点选取和无核聚类方法应用于高光谱图像中。首先,利用二叉树从高光谱数据中选取一些具有代表性的锚点;紧接着构造基于锚点的无核相似图,有效避免了通过人为调节热核参数来构造相似图;然后进行谱聚类分析获得聚类结果;最后,将该算法应用到高光谱图像聚类中。该算法不仅提高了聚类速度,还减少了原有热核参数调节。实验结果表明,与传统的聚类算法相比,所提算法能够在较短的时间内获得更佳的聚类精度。  相似文献   

15.
以等宽或随机宽度网格密度单元为基础的高维聚类算法不能保证复杂数据集中的聚类结果的质量。该文在核密度估计和空间统计理论的基础上,给出一种基于局部显著单元的高维聚类算法来处理复杂数据的高维聚类问题。该方法以局部核密度估计和空间统计理论为基础定义了局部显著单元结构来捕获局部数据分布;设计了能快速发现覆盖数据分布的局部显著区域的贪婪算法;对具有相同属性子集的局部显著单元执行Single-linkage算法发现其中的聚类结果。实验结果表明,以局部显著单元为基础的高维聚类算法能够发现复杂数据集中隐含的高质量聚类结果。  相似文献   

16.
方佳艳  刘峤 《电子学报》2020,48(1):44-58
本文提出了一种新的带有同步化特征选择的聚类算法,称为"具有同步化特征选择的迭代紧凑非平行支持向量聚类算法"(IT-NHSVC-SFS).在具有两个非平行超平面的学习模型中使用迭代(交替)优化算法完成聚类,同时引入两种类型的正则项,分别是欧几里得范数和无穷范数,欧几里得范数用于提升聚类模型的泛化能力,无穷范数实际上是对两个非平行超平面进行同步化地隐式特征抽取,从而降低来自于不相关特征的聚类噪音,保证了模型的聚类精度,并引入一组束缚变量(bounding variables)避免无穷范数的最大化操作,将非凸优化问题转化成二次凸优化问题.同时,由于新提出的模型体现着"最大间隔"的思想,因此具有良好的泛化能力.为了方便实现两个非平行超平面同步化的特征选择过程,文中将非平行超平面SVM(Nonparallel Hyperplane SVM,NHSVM)作为IT-NHSVC-SFS算法的基础模型,因此和TWSVM以及它的变体模型不同的是:只需要求解一个二次规划问题(QP问题)就可以同时得到两个最优超平面.同时,新算法在原有的NHSVM模型的约束条件集合中新添加了两组等式约束条件,从而无需进行原有模型中的两个大矩阵的求逆操作,降低了计算复杂度.此外,在IT-NHSVC-SFS模型中,用拉普拉斯损失函数(Laplacian loss measure)代替了NHSVM模型原有的铰链损失函数(hinge loss function),避免了算法早熟收敛(premature convergence).在一组标准数据集上的数值实验结果表明,相对于其他已有的聚类算法,IT-NHSVC-SFS算法在聚类精度方面具有更好的表现.  相似文献   

17.
密度峰聚类(DPC)算法采用点的密度与距离属性对数据进行划分。该算法对大多数数据集能获得较好的聚类结果。然而,对于存在交叉、重叠情况的数据集,DPC算法的最近邻居分配方法将造成较大误差。针对这一缺陷,本文考虑到数据点的大部分邻居属于相同的簇,提出一种多邻居投票的聚类方法。该方法采取多个邻居的投票结果来决定未知点的归属。数值实验表明,基于投票法的密度峰聚类算法在面对点分布存在交叉、重叠情况的数据集时优于DPC算法。  相似文献   

18.
一种基于GA的混合属性特征大数据集聚类算法   总被引:2,自引:0,他引:2  
在数据挖掘中,经常会遇到和分析大量具有数值和类属特征的数据。然而,现有的大多数算法只能单独处理数值特征数据或类属特征数据,而不能分析具有混合属性的数据。为此,该文提出了一种基于GA的模糊聚类新算法,通过改进聚类目标函数将数值特征与类属特征相结合,从而实现具有混合属性特征数据的聚类分析;通过引入GA算法能够快速得到全局最优解,而且不依赖于原型初始化。实验结果表明,基于GA的新聚类算法对于处理具有混合特征的大数据集聚类问题是相当有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号