共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
数据挖掘中聚类算法比较研究 总被引:16,自引:0,他引:16
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。 相似文献
3.
魏丽 《数字社区&智能家居》2007,(11):637-639
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。 相似文献
4.
5.
数据挖掘常用聚类算法研究 总被引:2,自引:0,他引:2
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。 相似文献
6.
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。 相似文献
7.
数据挖掘已经被广泛的应用于商业银行,电信行业,心理学,生物医学等各行各业中。由于数据挖掘涉及的学科领域和方法很多,所以就有多种分类方法。这里介绍了聚类方法的要求以及常见的聚类算法。现在还有很多改进的聚类算法,对H—K算法做了主要介绍。 相似文献
8.
魏丽 《数字社区&智能家居》2007,(21)
聚类分析技术是数据挖据中的一种重要技术.本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法,并从多个方面对这些算法的性能进行比较. 相似文献
9.
数据挖掘中聚类算法研究进展 总被引:6,自引:0,他引:6
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。 相似文献
10.
数据挖掘已经被广泛的应用于商业银行,电信行业,心理学,生物医学等各行各业中。由于数据挖掘涉及的学科领域和方法很多,所以就有多种分类方法。这里介绍了聚类方法的要求以及常见的聚类算法。现在还有很多改进的聚类算法,对H-K算法做了主要介绍。 相似文献
11.
聚类是数据挖掘中重要组成部分,为了提高聚类的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱聚类算法。 相似文献
12.
全局K-均值聚类算法需要随机选取初始的聚类中心,本文基于K中心点算法的思想,将其作为全局K-均值聚类算法的初始聚类中心,并对全局K-均值聚类算法进行改进。依托人工模拟数据和学习库中的数据分析,对比两种算法的性能,得出改进算法聚类时间短,鲁棒性强的结论。 相似文献
13.
一种基于限制的PAM算法 总被引:2,自引:1,他引:2
何振峰 《计算机工程与应用》2006,42(6):190-192
利用数据对象间的关联限制可以改善聚类算法的效果,但对于关联限制与K中心点算法的结合策略则少有研究。由此研究了关联限制与PAM算法的结合方法,提出了算法CPAM。首先基于限制找到一个合适的初始分隔;在接下来反复地调整中心点的过程中,也考虑到了所给限制。实验结果显示:CPAM可以有效地利用关联限制来提高一些实际数据集的准确率。 相似文献
14.
15.
聚类分析作为一种常见的分析方法,广泛应用于各种场景。随着机器学习技术的发展,深度聚类算法也成了当下研究的热点,基于自编码器的深度聚类算法是其中的代表算法。为了及时了解掌握基于自编码器的深度聚类算法的发展,介绍了四种自编码器的模型,对近些年代表性的算法依照自编码器的结构进行了分类。在MNIST、USPS、Fashion-MNIST数据集上,针对传统聚类算法和基于自编码器的深度聚类算法进行了实验对比、分析,最后对基于自编码器的深度聚类算法目前存在的问题进行了总结,展望了深度聚类算法的研究方向。 相似文献
16.
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 相似文献
17.
密度峰值聚类算法综述 总被引:1,自引:0,他引:1
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. 相似文献
18.
19.
在传统K-中心点聚类算法中,相似性一般仅仅用距离来进行度量,这种度量方法均基于对象属性之间是独立同分布的,但大多数真实数据对象属性之间都相关联的,因此,本文将引用非独立同分布计算公式,对传统距离计算相似度方法进行替换。同时,由于此公式会依据属性值的频率来进行计算,但数值型数据对于频率并不敏感,因此,本文在引入公式之前,将数值型数据按属性列进行聚类与替换。实验结果表明,本文方法可以提高算法的聚类精度。 相似文献
20.
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类. 相似文献