首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
数据挖掘中聚类方法比较研究   总被引:4,自引:0,他引:4  
王鑫  王洪国  王珺  王金枝 《微机发展》2006,16(10):20-22
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

2.
数据挖掘中聚类方法比较研究   总被引:5,自引:1,他引:5  
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

3.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能,进一步对聚类算法提出了期望。  相似文献   

4.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能.进一步对聚类算法提出了期望。  相似文献   

5.
总结了数据挖掘中聚类算法的研究现状,分析比较了它们的差异及局限性。提出了一种新的聚类方法。通过实例得出该方法为数据挖掘提供了有效的平台。  相似文献   

6.
数据挖掘是大量数据的分析,发现数据中有效的、新颖的、潜在有用的数据,最终变为可理解的模式。本文介绍了数据挖掘的概念,旨在提供k-means聚类和等级分明的聚类组合,提供的混合聚类方法在集群机制的稳定性是非常有帮助的。  相似文献   

7.
聚类分析方法及工具应用研究   总被引:2,自引:0,他引:2  
聚类是数据挖掘领域的一个重要的研究方向。本文介绍了聚类的基本概念及主要方法,通过具体实例对当今国际上先进的数据挖掘工具(SPSS和DBiner)聚类的性能进行了对比,最后得出了结论。  相似文献   

8.
数据挖掘中聚类算法比较研究   总被引:16,自引:0,他引:16  
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。  相似文献   

9.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

10.
数据挖掘中聚类的研究   总被引:16,自引:0,他引:16  
聚类是数据挖掘中重要的研究课题。文章介绍了聚类,讨论了聚类分析中的数据类型及其相异度,概括了数据挖掘中常用的聚类方法。最后,提出了聚类研究中今后的若干发展趋势。  相似文献   

11.
基于数据挖掘聚类技术的信用评分评级   总被引:7,自引:0,他引:7  
本文提出了一个基于数据挖掘聚类技术的信用评分评级方法。该方法使用数据挖掘的聚类算法,对传统信用评分模型进行了改进,本文给出了方法的理论证明,并在一个信用卡分析系统DMCA中实现了该方法,进行了详细的数据测试。理论证明及实验结果都表明,聚类技术在传统信用评分模型的DM/MTM,分界值,均方差,交叉验证等问题上取得了良好的效果。  相似文献   

12.
提出知识发现中的可继承性问题,通过对知识发现过程和挖掘算法形式化描述和分析,抽象出各个阶段的形式联系及其约束条件,在此基础上提出初等知识的概念.在引入初等知识后,对传统的挖掘算法、增量式挖掘算法、可继承性挖掘算法进行形式化描述和比较,得出如下结论:可继承性挖掘算法能够有效的提高数据集变化、参数变化情况下的数据挖掘效率.  相似文献   

13.
高维特征空间中文本聚类研究   总被引:10,自引:2,他引:10  
依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。  相似文献   

14.
聚类算法有效性验证工具设计与实现   总被引:1,自引:0,他引:1  
随着数据挖掘技术的发展,聚类算法也越来越多.数据挖掘对聚类算法有某些典型要求,如何验证聚类算法是否满足这些要求已成为一个需要解决的问题.由于实际样本集很难获得,且很多无法用来进行聚类算法的测试,因此设计并实现了一个工具,讨论用构造的样本集对加载的聚类算法进行评测,并对聚类结果进行展示.  相似文献   

15.
While data clustering has a long history and a large amount of research has been devoted to the development of numerous clustering techniques, significant challenges still remain. One of the most important of them is associated with high data dimensionality. A particular class of clustering algorithms has been very successful in dealing with such datasets, utilising information driven by the principal component analysis. In this work, we try to deepen our understanding on what can be achieved by this kind of approaches. We attempt to theoretically discover the relationship between true clusters in the data and the distribution of their projection onto the principal components. Based on such findings, we propose appropriate criteria for the various steps involved in hierarchical divisive clustering and develop compilations of them into new algorithms. The proposed algorithms require minimal user-defined parameters and have the desirable feature of being able to provide approximations for the number of clusters present in the data. The experimental results indicate that the proposed techniques are effective in simulated as well as real data scenarios.  相似文献   

16.
邓维维  彭宏 《计算机科学》2007,34(9):125-127
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。  相似文献   

17.
本文在简要地介绍了数据挖掘的定义,目的和方法。提出了在多维数据库的基础上用数据挖掘技术提高企业信息管理水平的方法。  相似文献   

18.
关联规则的发现是数据挖掘的一个重要方面,而数量关联规则的发现不同于传统的布尔型关联规则。属性值的离散映射是挖掘定量关联规则的一个重要环节,离散映射中属性值区间的划分粒度是影响数据挖掘质量的一个重要因素。该文介绍几种发现大型事务数据库中数量关联规则的算法,并对他们加以比较。  相似文献   

19.
K-prototypes算法是处理混合属性数据的主要聚类算法,但是存在对初值敏感、参数依赖和易受噪声干扰等问题。为了克服以上缺点,该文对K-prototypes算法的初始中心点选择进行了研究与分析,提出了一种基于近邻法的初始中心点选择策略对算法进行改进,算法先利用近邻法获得初始中心点集和k值,然后进行K-prototypes运算,最后加入识别异常数据点的规则。改进后的算法成功解决了传统K-prototypes算法的缺陷,而且具有更好的分类精度和稳定性。经实验证明,改进算法是正确和有效的,明显优于传统的K-prototypes算法。  相似文献   

20.
数据挖掘技术在教学评价系统中的应用   总被引:2,自引:0,他引:2  
本文主要通过对数据挖掘工具的探讨,将教学评价结果的数据样本运用聚类、分类等技术进行数据分析,从分析的结果中发现有价值的数据模式,让领导者能够从中发现教师教学活动中的主要问题,以便及时改进,进而辅助领导决策做好学校管理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号