首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
k-means聚类算法中,初始聚类中心的选取与数据中的离群点都对算法的结果有着非常大的影响。针对这一问题,提出一种基于网格和密度的k-means聚类算法GD-k-means,该算法首先将数据集映射到网格上形成网格簇进行初步聚类,利用密度阈值将网格分为低密度网格簇和高密度网格簇,在高密度网格簇中选取初始聚类中心,并利用传统的k-means算法进行迭代,通过评价条件判定是否需要进行网格簇的合并。聚类完成之后按照距离最近的原则对低密度网格簇中的数据进行相应的分配。实验结果表明:GD-k-means算法聚类结果更稳定,并且能够抵抗噪音数据的干扰。  相似文献   

2.
提出了一种基于网格密度的混合聚类算法。该算法使用平方误差密度函数作为密度评估标准,避免了传统密度算法由于Eps和MinPts设置不当给聚类效果带来的不稳定因素。提出了动态邻域半径策略,解决了传统密度算法采用全局静态邻域半径造成的聚类偏差问题。对空间区域内的所有结点设置网格密度启发信息。在进行数据结构构造和邻域半径计算时,只需计算对应网格区域内结点,从而降低了计算成本;在进行区域查询时,只选择符合条件的代表对象进行扩展,从而减少了查询次数,节省了程序运行时间。对Pendigits数据集和SE-QUOIA 2000数据库进行测试,结果表明:提出的基于网格密度的混合快速聚类算法在海量数据聚类精度、聚类时间以及聚类稳定性上要优于传统的聚类算法。  相似文献   

3.
针对传统的基于网格-密度的空间聚类方法容易产生不平滑聚类、非坐标轴方向过度聚类以及聚类边界判断模糊的问题,本文提出了一种高维空间数据的模糊聚类算法.该算法通过扩展网格区域,用模糊集的隶属度对基本区域及模糊扩展区域内的数据点进行计数,考虑了相邻网格对当前考察网格内数据点的影响,避免了不平滑聚类想象;同时,通过对相邻网格重新定义扩展了聚类算法的执行方向,有效缓解了过度聚类以及聚类边界模糊的问题.实验结果表明,该方法克服了传统聚类方法的不足,空间高维数据聚类结果的质量得到了改善.  相似文献   

4.
针对大规模样本聚类的时间复杂度过高和聚类结果对经验参数设置的依赖性过强的问题,提出一种基于密度网格可变参数的自扩展聚类算法.算法将数据空间分割成相同大小的网格单元,再将样本归一化后映射到相应的网格单元中,然后从指定密度较大的网格单元向周围扩展,直到其平均密度达到指定的下限或可扩展的聚类边界为止.聚类过程中,通过下限密度和均值密度限制聚类间的过度扩展,如果有效样本的比率低于阈值,则自适应调整扩展密度并重新聚类.仿真试验表明,本算法可以以较小的时间代价获得较高的聚类精度和有效样本率.  相似文献   

5.
提出一种基于扩展凝聚点和网格的快速聚类算法CECPG(c lustering using extended condensation pointand grid).在CECPG算法的基础上提出一种基于扩展凝聚点和网格的增量聚类算法ICECPG(increm entalc lustering using extended condensation point and grid).通过扩张凝聚点准确反映数据空间的几何特征,然后采用网格和密度相结合的方法,利用爬山法和连通性原理进行聚类处理,并在差分数据的指导下进行增量聚类.实验结果证明,CECPG算法的聚类效果优于模糊聚类算法FCM和C lique算法.  相似文献   

6.
针对传统K-means算法初始中心选取的随机性导致算法聚类效果不佳的问题,提出一种基于网格密度距离的K-means算法,即GDD-K-means。该算法先把数据点放入网格空间内,以网格为单元进行数据处理,遍历网格得到网格密度,根据密度阈值筛选出高密度网格并进行降序排序;再在高密度网格中引入K-means++思想,选取k个距离较远的网格点;最后进行K-means算法聚类的k个初始中心点将确定在上述网格点中。仿真实验结果表明,GDD-K-means算法减少了聚类中心选取的随机性,改善了聚类的效果。  相似文献   

7.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

8.
用于不同密度聚类的多阶段等密度线算法   总被引:9,自引:1,他引:9  
多阶段等密度线算法是在基于网格的等密度线聚类算法的基础之上 ,采用多阶段的聚类方式来解决分布密度变化较大的数据集的聚类分析问题. 该算法能够找出分布密度不同的各种类别 ,并能很快地处理高维数据集. 此外 ,还能有效地对时间序列数据集进行聚类.  相似文献   

9.
聚类分析是数据挖掘的最主要功能之一,其中CLIQUE算法是综合了基于密度和基于网格的聚类方法,对于大型数据库中的高维数据的聚类非常有效,解决了现有多种聚类算法只能处理低维空间数据的缺陷.通过分析研究聚类中的CLIQUE算法,将其应用于信用卡的审批模型中,能进行高效、智能的判断,为发卡银行提供有效的决策支持.  相似文献   

10.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

11.
聚类分析是数据挖掘领域中一种非常有用的技术,它用于从大量数据中寻找隐含的数据分布模式,主要有分割法、层次法、密度法、网格法和模型法等。该文主要讨论数据挖掘中一种基于密度和网格的聚类分析算法及其在客户关系管理中的应用。该算法具有较高的聚类效率而且容易实现,可以发现任意形状的聚类,时间复杂度低,聚类精度高,适用于数据的批量更新。该文还提出增量式聚类技术,它不仅能够利用前期聚类的结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。实验证明了算法的有效性。  相似文献   

12.
一种基于网格和密度凝聚点的快速聚类算法   总被引:10,自引:1,他引:10  
提出的快速聚类算法通过凝聚点来准确反映数据空间的几何特征,然后采用网格和密度相结合的方法,利用爬山法和连通性原理进行聚类处理,克服了传统网格聚类算法聚类质量降低的缺点.实验结果证明,本算法的聚类效率优于传统爬山法、Clique算法和DBSCAN算法.  相似文献   

13.
对近年来不确定性数据聚类算法的研究现状与进展进行总结。首先对较有代表性的聚类算法,从思想、关键技术和优缺点等方面进行分析。其次选用数据集对基于密度的算法进行测试和对比分析。并给出基于不确定性数据的聚类算法,上述工作将为不确定数据管理提供有益的参考。  相似文献   

14.
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较.  相似文献   

15.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

16.
目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DBSCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集.  相似文献   

17.
作为数据挖掘的一项重要技术,聚类分析具有广泛的应用领域.同时,聚类也是数据挖掘领域中一个相对比较困难的问题.在聚类算法中,基于模糊划分的FCM算法是一种重要的算法.和其它的算法相比,FCM算法具有计算简单、运算速度快,且有比较直观的几何意义的优点,因此在图像处理、模式识别等领域得到了广泛的应用.和所有的c均值算法一样,FCM算法也是只用类中心来表示类,这样只是适合球状类型的簇.本文在目前FCM算法研究的基础上,讨论了传统FCM算法在原型初始化上的局限性.提出一种基于层次凝聚的改进算法,使之能够适用于不规则分布的数据.  相似文献   

18.
在研究了基本蚁群聚类模型、信息熵以及几个经典的聚类分析算法的基础上,针对传统K—means算法的不足,首先提出了一种基于信息素的k-means改进算法,该算法以基于信息素的转移概率为判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程.在深入研究了基于信息熵的LF改进算法的基础上,提出了一种蚁群聚类组合算法策略.  相似文献   

19.
CRM中的模糊C均值(FCM)客户聚类算法研究   总被引:4,自引:0,他引:4  
客户关系管理(CRM)中的客户聚类分析是一个新的研究领域,属于数据挖掘的应用范畴.CRM利用数据挖掘技术发现客户数据背后隐藏的、有用的、未曾预料的知识.包括利用聚类方法划分顾客类别.本文提出用模糊C均值(FuzzyC Means,FCM)聚类算法作为客户聚类的方法,得到不同客户群的聚类中心以及客户的隶属度矩阵,为客户群的特征分析提供了量化依据.并采用Matlab6.1为计算工具,最后给出了一个聚类分析实例.实验证明,本文采纳的方法可以得到满意的客户聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号