首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 384 毫秒
1.
数据挖掘中经常使用k-means算法,它是经常使用的一种聚类分析算法,但易受初始聚类中心和聚类个数k的影响。因此对近年从算法原理、关键技术和优缺点等方面提出的较有代表性的关于初始聚类中心和k值确定的改进的k-means算法进行了分析。并选用知名数据集对一些典型算法进行测试和应用。上述工作将为数据挖掘的研究提供有益的参考。  相似文献   

2.
鉴于时间序列数据的高维性和复杂性给数据挖掘带来的困扰以及聚类分析在时间序列数据挖掘领域中的重要性,对目前该领域国内外相关时间序列数据聚类研究的状况进行综述。时间序列聚类总体上可分为整体时间序列聚类、子序列聚类和时间点聚类3种,分别从特征表示、相似性度量、聚类算法和簇原型等方面来研究,同时也结合了具体的应用分析。根据时间序列数据挖掘中聚类存在的主要问题,提出了部分未来值得关注和研究的内容和方向,以便更好地促进时间序列数据聚类分析的研究与发展。  相似文献   

3.
聚类分析是数据挖掘的最主要功能之一,其中CLIQUE算法是综合了基于密度和基于网格的聚类方法,对于大型数据库中的高维数据的聚类非常有效,解决了现有多种聚类算法只能处理低维空间数据的缺陷.通过分析研究聚类中的CLIQUE算法,将其应用于信用卡的审批模型中,能进行高效、智能的判断,为发卡银行提供有效的决策支持.  相似文献   

4.
一种混合聚类算法及其应用   总被引:1,自引:0,他引:1  
通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类, 从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘。实验数据分析验证了算法的有效性,对数据挖掘应用于设备状态监测和故障诊断具有指导意义。  相似文献   

5.
数据挖掘领域中的聚类方法   总被引:6,自引:0,他引:6  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

6.
提出了一种基于群体智能的电梯交通流分析方法,该算法将电梯交通流模式投影于二维平面上,然后依据群体智能聚类,实现电梯交通流的自组织聚类分析.为了提高群体智能聚类算法的运行效率,采用了主成分分析方法改善模式投影时的随机性,同时在聚类过程中引入密度引导策略减小分类错误率和运行时间.仿真结果表明,群体智能聚类算法能对电梯交通流数据进行有效的聚类分析,具有较好的自组织聚类特性.  相似文献   

7.
空间聚类技术研究综述   总被引:2,自引:0,他引:2  
空间数据挖掘是一种获取空间数据所蕴含知识的方法和技术.空间聚类是空间数据挖掘的重要研究内容,有着广泛的应用领域.介绍了空间聚类算法的分类和性能要求、空间聚类过程和方法.空间聚类算法主要有基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及其它形式的空间聚类算法.  相似文献   

8.
数据流聚类分析是数据流挖掘领域的重要分支。由于数据流海量、快速、动态到达,传统的静态数据挖掘技术不能满足在线分析的需求。数据流聚类的核心是设计单遍数据集扫描算法,在有限的内存中存储少量概要特征信息,实现数据流实时、在线聚类分析。采用数据流处理中广泛应用的滑动窗口模型,提出一种新的基于增量傅立叶变换(DFT)的数据流概要算法,并在此基础上运用k-均值(k-means)聚类,实现数据流的在线挖掘。基于增量DFT概要的数据流聚类算法可减少运行时间,节省内存空间,实际用电负荷数据证明了算法的有效性。  相似文献   

9.
面对海量的刷卡交易数据,普通的聚类算法和自然语言处理无法完成数据挖掘任务。本研究将MapReduce与K-means、FCM及HanLP算法相结合,不仅提高了海量数据聚类和语句分析的效率,而且可以挖掘出海量用户的刷卡行为特点,丰富和完善了客户画像。经过实验测试,基于MapReduce的聚类和自然语言分析算法运行在Hadoop集群下,不仅快速地实现了客户画像,帮助企业实现精准推销,而且为大数据环境下实现数据挖掘及自然语言分析算法的分布式并行运算提供了重要的参考和应用价值。  相似文献   

10.
目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DBSCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集.  相似文献   

11.
将聚类分析技术应用于客户关系管理可以有效实现客户细分,改善客户关系。文章使用层次凝聚法和K—means算法实现了客户的自动聚类,并且在权衡算法效率和聚类精度的基础之上提出了改进的聚类距离公式和K—means算法。  相似文献   

12.
针对物联网环境下实时数据挖掘中资源约束的特点,分析了快速有效地挖掘抽取知识的方法。在K-means算法的基础上,结合RA-Cluster算法,提出了ARRA-Kmeans聚类算法。并基于环境资源约束和时间约束的特点,引入自适应聚类方法和滑动窗口技术,对网络节点的实时数据进行挖掘。实验结果表明,随着流数据量的增大,ARRA-Kmeans算法在处理实时动态的数据时具有较好的效果,聚类精度较高,处理时间较快。  相似文献   

13.
针对现有数据挖掘软件不支持用户有序、动态地按需定制并行数据挖掘算法,且不能充分利用计算集群的能力,分析了 Hadoop技术及其多种数据处理组件,提出应用 Mahout分布式数据挖掘算法库和 Oozie 工作流技术在 Hadoop 中构建数据挖掘工作流的方法,并设计实现了一个聚类工作流实例。实验结果证明,该方法简单,且能有效地组织数据挖掘流程。  相似文献   

14.
研究了一种聚类组合算法。首先概要介绍了数据挖掘中聚类分析的概念,同时对当前研究的热点群体智能也作了简要的说明,对基本的蚁群聚类算法作了详细的分析,提出了一种基于群体智能的聚类组合算法,借鉴改进的单蚁群算法SACA的聚类收集和标识方法,进行聚类的标识。并根据蚂蚁觅食的转移概率进行二次聚类。实验表明,该算法用于对银行客户细分有较好的聚类效果。  相似文献   

15.
在研究了基本蚁群聚类模型、信息熵以及几个经典的聚类分析算法的基础上,针对传统K—means算法的不足,首先提出了一种基于信息素的k-means改进算法,该算法以基于信息素的转移概率为判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程.在深入研究了基于信息熵的LF改进算法的基础上,提出了一种蚁群聚类组合算法策略.  相似文献   

16.
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较.  相似文献   

17.
作为数据挖掘的一项重要技术,聚类分析具有广泛的应用领域.同时,聚类也是数据挖掘领域中一个相对比较困难的问题.在聚类算法中,基于模糊划分的FCM算法是一种重要的算法.和其它的算法相比,FCM算法具有计算简单、运算速度快,且有比较直观的几何意义的优点,因此在图像处理、模式识别等领域得到了广泛的应用.和所有的c均值算法一样,FCM算法也是只用类中心来表示类,这样只是适合球状类型的簇.本文在目前FCM算法研究的基础上,讨论了传统FCM算法在原型初始化上的局限性.提出一种基于层次凝聚的改进算法,使之能够适用于不规则分布的数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号