首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 98 毫秒
1.
聚类分析是数据挖掘的核心技术。本文对大型数据库中的聚类方法作了分析,并对聚类分析进行了分类,列举了每类中的典型的聚类算法,以便于人们更容易、更快捷地找到适用于特定问题的聚类方法;最后提及到了将聚类方法应用于大型数据库的相关技术、基本准则以及以后的研究方向。  相似文献   

2.
空间聚类研究   总被引:2,自引:0,他引:2  
聚类算法是数据挖掘中的关键技术,聚类技术在模式识别、图像处理等领域有广泛应用,随着对聚类算法更广泛深入的研究,产生了许多不同的适用于空间数据挖掘的聚类算法.描述了数据挖掘领域中对聚类分析的典型要求,介绍了空间数据挖掘中近几年常用的聚类方法,并通过基于评价聚类算法好坏的标准,从多个方面对这些算法性能进行比较分析,方便人们较容易找到一种适用于特定问题的聚类算法,最后对未来发展进行了展望.  相似文献   

3.
4.
本文提出了一个针对空间数据库基于聚类的知识获得取算法,该算法可解决空间的数据的聚类问题。  相似文献   

5.
多数据库挖掘最常用的方法是先将多数据库进行分类,然后对每个类进行单独挖掘,最后将各个类中的模式进行集成得到全局模式。这些数据库分类方法都只是针对事务数据库而设计,用两个数据库中共同项集的比例来衡量这两个数据库的相似度,以此来进行数据库分类。本文提出一种基于聚类的数据库分类方法,可以对任何类型的数据库进行分类。  相似文献   

6.
聚类分析算法已广泛地应用于数据挖掘。文章总结了大型数据库数据挖掘对聚类算法的基本要求,介绍了广泛应用于大型数据库的三种聚类算法,并对它们进行了性能比较;结果表明,不同的聚类方法,对于相同的记录集合可能有不同的聚类结果,因此应根据实际需要采用相应的聚类分析算法。  相似文献   

7.
数据库聚类的一个关键问题是数据库中存储数据的格式与聚类算法所要求的输入数据格式之间的差异,为了弥补这一差异,提出基于模块单元的数据表示方法,该方法能够有效提高数据库的聚类能力。  相似文献   

8.
改进K-means的空间聚类算法*   总被引:3,自引:0,他引:3  
提出了基于K-means的四叉树与R-link树的混合结构树,提高了R-link树的查询性能,在K-means中采用均值—标准差确定初始聚类中心,提高了收敛速度,通过距离准则函数来优化K值,避免K值的盲目选取。与R-link相比空间开销代价有时略大,但换取了更高的性能,且数据量越多,此种结构的整体性能越好,适合于海量数据。  相似文献   

9.
提出了基于K-means的四叉树与R-link树的混合结构树,提高了R-link树的查询性能,在K-means中采用均值—标准差确定初始聚类中心,提高了收敛速度,通过距离准则函数来优化K值,避免K值的盲目选取。与R-link相比空间开销代价有时略大,但换取了更高的性能,且数据量越多,此种结构的整体性能越好,适合于海量数据。  相似文献   

10.
数据挖掘中的聚类方法   总被引:61,自引:5,他引:61  
王实  高文 《计算机科学》2000,27(4):42-45
从空间X中给定一个有限的取样点集(或从数据库中取得有限例子的集合),{x~i}_(i 1)~M,聚类的目标是将数据聚集成类,使得类间的相似性尽量小,而类内的相似性尽量大。分类问题(监督)和聚类问题根本的不同是:分类问题中,我们知道训练例的分类属性值,而在聚类问题中,就需要我们在训练例中找到这个分类属性值。1 数据挖掘领域中的聚类研究  相似文献   

11.
带障碍的聚类问题是一个具有实际应用价值的问题,因为现实世界中确实存在河流、山脉等之类的物理障碍,这们的存在会影响聚类结果的合理性。传统的聚类算法在进行空间数据的聚类时,往往忽略了障碍对于聚类结果的影响。本文讨论了不同障碍对数据点间连通性的不同影响,提出了带障碍的分级聚类算法OBHIEC。分级聚类方法使得需要计算障碍距离的点对数目减少,并能处理数据分布密度不同的情况。实验结果表明,OBHIEC算法能有效完成带障碍的聚类,并具有较好的增量特性。  相似文献   

12.
Robust Distance-Based Clustering with Applications to Spatial Data Mining   总被引:2,自引:0,他引:2  
In this paper we present a method for clustering geo-referenced data suitable for applications in spatial data mining, based on the medoid method. The medoid method is related to k -MEANS, with the restriction that cluster representatives be chosen from among the data elements. Although the medoid method in general produces clusters of high quality, especially in the presence of noise, it is often criticized for the Ω(n 2 ) time that it requires. Our method incorporates both proximity and density information to achieve high-quality clusters in subquadratic time; it does not require that the user specify the number of clusters in advance. The time bound is achieved by means of a fast approximation to the medoid objective function, using Delaunay triangulations to store proximity information. Received December 21, 1998; revised August 25, 1999, and October 25, 1999.  相似文献   

13.
苏进  张佑生 《计算机工程》2005,31(22):110-112
提出一种分层聚类算法,该算法可识别任意形状、大小的类,在某电信企业的客户分析中取得了较好的结果。算法首先从不同的角度对电信客户进行聚类或分类,然后以这些类为基础,实行自底向上的层次聚类得到最终的聚类结果。算法执行效率高,适合大规模数据的聚类问题。  相似文献   

14.
数据挖掘中的聚类算法综述   总被引:30,自引:0,他引:30  
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。  相似文献   

15.
Clustering multidimensional sequences in spatial and temporal databases   总被引:3,自引:2,他引:1  
Many environmental, scientific, technical or medical database applications require effective and efficient mining of time series, sequences or trajectories of measurements taken at different time points and positions forming large temporal or spatial databases. Particularly the analysis of concurrent and multidimensional sequences poses new challenges in finding clusters of arbitrary length and varying number of attributes. We present a novel algorithm capable of finding parallel clusters in different subspaces and demonstrate our results for temporal and spatial applications. Our analysis of structural quality parameters in rivers is successfully used by hydrologists to develop measures for river quality improvements.
Thomas SeidlEmail:
  相似文献   

16.
一种基于熵的聚类算法   总被引:1,自引:1,他引:1  
王洪春  彭宏 《计算机科学》2007,34(11):178-179
给出了一种以Reny熵为评价准则的聚类算法,通过非参数估计法估计密度函数,再利用类内熵和类间熵进行聚类和确定聚类的数目。这种算法不需要用户输入与聚类有关的参数,能根据由数据的分布的特性自动获取要聚类的数目,并能发现任意形状和任意大小的聚类。实验结果显示了算法的有效性和优越性。  相似文献   

17.
空间数据挖掘的研究进展   总被引:3,自引:0,他引:3  
张楠  曲海平  刘念  何佳 《微处理机》2007,28(2):1-3,7
随着现代科学技术的迅速发展,复杂多变的空间数据日益膨胀,远远超出人们的解译能力,迫切需要新的数据挖掘技术和知识为其提供方法。文章从空间数据挖掘的基本概念出发,详细阐述了空间数据挖掘的特点、可发现的知识类型以及进行空间数据挖掘的主要方法,并给出了一种基于多组件空间数据挖掘的体系结构。最后,还对空间数据挖掘的进一步发展做了展望。  相似文献   

18.
空间数据挖掘技术方法及应用   总被引:20,自引:2,他引:20  
着重阐述了通用的空间数据挖掘体系结构,空间数据的关联特性,几种主要的空间数据挖掘方法。最后对一实例进行了应用分析。  相似文献   

19.
聚类算法能从空间数据库中直接发现一些有意义的聚类结构而不需要背景知识,是空间数据发掘和知识发现的重要手段。在分析已有聚类算法的基础上,提出了一种基于数学形态学的聚类算法,该算法能够处理任意形状的聚类,采用启发式方法自动确定最优聚类数。同时,该算法也可以在矢量型空间数据库中得到实现。试验表明算法是可行和有效的,且能处理存在噪音的数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号