共查询到20条相似文献,搜索用时 62 毫秒
1.
基于K-means聚类算法的分析及应用 总被引:7,自引:0,他引:7
聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,集中对特定的某些簇作进一步的分析;本文主要介绍了传统聚类算法及其局限性,然后对直接K-means算法进行分析改进,着重分析了该算法的思想体系以及它的优缺点,针对它的缺点之一提出了一种基于距离的改进策略,并将该改进策略应用到对学生成绩的分析中,实验目的是应用该算法将学生划分为合理的簇(或类)以及对聚类结果进行分析,总之实验表明了该算法的灵活性以及在此应用中的适用性. 相似文献
2.
数据聚类是数据挖掘中的关键一步.本文针对利用欧几里德距离作为相似性测算引起聚类结果的不稳定性,提出一种基于内聚力作为相似性测算的聚类方法.通过仿真比较,证明了该算法的优越性. 相似文献
3.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法. 相似文献
4.
在数据聚类的过程中,由于样本数据空间分布的复杂性,相似度度量过程中的重复性以及算法的自适应性等问题,聚类算法往往无法得到正确的聚类结果.为了解决样本数据空间分布复杂的问题,提出叠加信息熵数据游走聚类算法.该算法通过在数值空间构建样本叠加信息熵场,并通过数据游走进行数据分割实现聚类.实验结果表明,该算法不仅可以获得较好的聚类效果,同时具有较高的数据自适应性. 相似文献
5.
深入挖掘用户用电行为是电力大数据背景下电力市场精细化发展的迫切需求。为满足该需求,提出了一种基于平滑异同移动平均线(MACD)指标提取特征的聚类分析方法。该方法首先计算用户用电量的MACD指标;然后以MACD指标为特征,采用K-means聚类算法对用户进行分类;最后利用分析股票的思想分析每一类用户的用电行为。对美国某一地区的实测居民用电量数据进行了算例分析,结果表明所提方法与传统方法相比具有更好的聚类效果,并且拓展了用户用电行为分析方式。 相似文献
6.
提出了一种新型的模糊遗传聚类算法(FGCA)。该算法不需要预知距离门限d就可对未知类别数目的数据集进行聚类。仿真结果表明,该算法对非球型分布数据同样具有很好的聚类效果。 相似文献
7.
采用属性聚类的高维子空间聚类算法 总被引:3,自引:1,他引:3
为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题,提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性,而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵,以衡量任意两个非冗余属性的相关度, 进而在关系矩阵上应用可产生交叠的聚类算法,聚类结果即为所有兴趣度子空间的候选集合,最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明,新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现,而且对输入参数的取值不甚敏感. 相似文献
8.
为解决现有的分布式聚类算法效率低下和不能保护数据隐私的问题,在K-Dmeans算法的基础上,提出一种新的分布式聚类算法.该算法利用数据对象间的密度函数值来优化站点初始聚类中心,从而大大降低了聚类的迭代次数;同时各从站点只需向主站点传送其聚簇的特征信息,有效降低分布式聚类过程中的通信量,保护了各个站点的独立性,实验结果表... 相似文献
9.
基于数据划分最大信息的聚类有效性函数 总被引:7,自引:0,他引:7
基于样本最大分类信息的改进划分系数仅仅利用了数据的模糊分类信息,为了将数据分类的几何结构信息考虑进去,结合数据分类的最大内变差,提出一个聚类有效性标准。实验结果表明,该方法具有良好的分类性能。 相似文献
10.
基于特征加权理论的数据聚类算法 总被引:1,自引:0,他引:1
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值. 相似文献
11.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法. 相似文献
12.
SenWu XuedongGao 《北京科技大学学报(英文版)》2004,11(3):283-288
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data, This algorithm compresses the data effectively by using a tool ‘Sparse Feature Vector‘, thus reduces the data scale enormously, and can get the clustering result with only one data scan, Both theoretical analysis and empirical tests showed that CABOSFV is of low computational complexity. The algorithm finds clusters in high dimensional large datasets efficiently and handles noise effectively. 相似文献
13.
针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。 相似文献
14.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。 相似文献
15.
非匀速平台SAR成像算法研究 总被引:1,自引:0,他引:1
提出一种波数域非匀速平台SAR成像方法.从波数和瞬时斜距的概念出发,通过对回波信号沿非匀速平台方位采样位置进行曲线积分得到理想的回波波数域表达式,再利用常规成像算法进行聚焦成像.该算法适用于任何已知平台方位采样位置的情况,不用进行插值操作,成像精度高.易于和已有成像算法结合.仿真结果验证了算法的有效性. 相似文献
16.
区间值数据模糊c-均值聚类新算法 总被引:2,自引:0,他引:2
针对范九伦等提出的两种模糊c-均值聚类算法进行了改进,提出了更一般的区间值数据模糊c-均值聚类算法.证明了当加权系数λ为1时,新算法等效于老算法Ⅰ;当λ趋于0 时,新算法趋近于老算法Ⅱ.新算法以老算法Ⅰ和Ⅱ为其特例,并可用现有的模糊c-均值工具箱直接实现. 相似文献
17.
一种基于PSO的分割聚类算法 总被引:5,自引:0,他引:5
为了求得一个数据集的最优分割,提出了一种基于PSO的分割聚类算法-PKPSO,将PSO算法和K均值聚类算法有效地结合在一起,对群体中的候选解有选择地利用K均值算法做进一步优化以提高解的精度。通过对算法的分析,给出了控制参数选择依据。并将此算法与单独使用K均值、PSO算法及QPSO算法聚类进行比较,试验测试结果表明:PKPSO算法有更好的全局收敛性,不仅能有效地克服传统算法易陷入局部极小值的缺点,而且求得解的精度和算法的稳定性都明显优于其他方法。 相似文献
18.
数据挖掘技术中聚类算法的改进研究 总被引:1,自引:0,他引:1
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果. 相似文献
19.
The Circle algorithm was proposed for large datasets.The idea of the algorithm is to find a set of vertices that are close to each other and far from other vertices.This algorithm makes use of the connection between clustering aggregation and the problem of correlation clustering.The best deterministic approximation algorithm was provided for the variation of the correlation of clustering problem,and showed how sampling can be used to scale the algorithms for large datasets.An extensive empirical evaluation... 相似文献
20.
基于最大熵模糊聚类的快速数据关联算法 总被引:7,自引:0,他引:7
提出了一种新颖的快速数据关联算法,减少了滤波中关联概率的计算量.该算法利用多个并行改进的最大熵模糊聚类对各个目标的有效观测进行聚类,采用聚类得到的模糊隶属度来重建滤波中的联合关联概率,并在联合关联概率中引入了比例因子避免航迹的合并;此外,分析了算法中差异因子的特性,考虑了杂波密度对它的影响,使得能够有效剔除无效观测,进一步减少计算量.仿真实验结果表明,提出的方法是一种有效的快速数据关联算法,跟踪性能要优于现有的数据关联算法. 相似文献