首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
一种多维数据的聚类算法及其可视化研究   总被引:8,自引:0,他引:8  
任永功  于戈 《计算机学报》2005,28(11):1861-1865
提出了一种基于主次属性划分的聚类方法和一种新的数据可视化方法.首先,利用数据的主属性和次属性的特征值对数据集进行聚类;然后,采用彩色刺激光谱投影到RGB颜色空间的原理,通过色度学中麦克斯韦的三角平面坐标色度图对各聚类结果进行可视化显示.实验证明了文中方法算法简单、容易实现,可视化结果有利于用户全面地理解数据,为数据的预测、决策起到重要作用.  相似文献   

2.
目前的可视化应用不管动态还是静态可视化,已经存在二维图形展示和点密度展示几种形式,而点密度已经成为作为体现密度特征的最有力手段。但目前的一般手段都只是简单的在特定区域内实现随即点的输出。由于数据本身的密度属性与其所属区域存在内在属性关联,本文在前期通过密度处理分析进行聚类,将数据集进行归类划分后在对应区域进行判断输出实现可视化,实验证明具有更符合区域特征的可视化效果,并且时间和空间复杂度明显小于直接进行点密度可视化输出的算法。  相似文献   

3.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

4.
随着多媒体技术的发展,许多领域产生大量的高维数据集。为了有效地检索这些高维数据,高维索引成为人们研究的热点。聚类树是一种有效地支持高维数据检索的索引结构。提出了一种基于子空间聚类的聚类树结构,该索引结构基于一种改进的CLIQUE聚类算法,利用小波变换的多尺度特性对图像特征分布曲线进行不同尺度的小波变换,去除一些小的分类和可能的噪声干扰,从而得到不同粒度下的层次聚类。在层次聚类的基础上,建立起分层索引结构。由于改进的聚类算法使用爬山法确定子空间聚类,因而有效地避免了用户参数的定义。实验结果证明,该方法在不需要用户设定聚类参数下能够进行有效聚类,在不同尺度下构建的聚类结构能够有效地组织图像关系,大大提高图像的检索效率。  相似文献   

5.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

6.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

7.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

8.
地理信息系统存储了大量的二维空间对象,对这些对象进行聚类分析是数据挖掘的一项重要任务.本文提出一种针对二维空间对象的聚类算法.该算法引用层次聚类方法的思想,将子聚类信息用一个聚类特征表示.采用基于密度的方法,发现任意形状的簇,能较好地处理孤立点,并且支持增量式聚类.实验证明该算法是有效的.  相似文献   

9.
SUDBC:一种基于空间单元密度的快速聚类算法   总被引:3,自引:0,他引:3  
随着数据规模越来越大,要求聚类算法有很高的执行效率,很好的扩展性,能发现任意形状的聚类以及对噪音数据的不敏感性.提出了一种基于空间单元密度的快速聚类算法SUDBC,该算法首先将被聚类的数据划分成若干个空间单元,然后基于空间单元密度将密度超过给定阈值的邻居单元合并为一个类.实验结果验证了SUDBC算法具有处理任意形状的数据和对噪音数据不敏感的特点.  相似文献   

10.
一种处理障碍约束的基于密度的空间聚类算法   总被引:1,自引:0,他引:1  
杨杨  孙志伟  赵政 《计算机应用》2007,27(7):1688-1691
在现有的基于障碍约束的空间聚类算法COD_CLARANS、DBCLuC、AUTOCLUST+和DBRS+的基础上,提出了一种新的基于密度的空间聚类算法——基于障碍距离的密度聚类算法(DBCOD)。该算法在DBCLuC算法的基础上,采用障碍距离代替欧几里得距离作为相异度的度量标准,并在预处理过程中用障碍多边形合并化简方法来提高障碍物的处理效率。仿真实验结果表明,DBCOD算法不仅具有密度聚类算法的优点,而且聚类结果比传统基于障碍约束的密度聚类算法更合理、更加符合实际情况。  相似文献   

11.
基于密度的最小生成树聚类算法研究   总被引:2,自引:0,他引:2  
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。  相似文献   

12.
一种改进的基于密度的聚类算法   总被引:10,自引:0,他引:10  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,对噪声不敏感。而现有的该类算法对于空间数据分布不均匀的情况聚类效果不佳。鉴于此,文中提出一种改进的基于密度的聚类算法,保持了基于密度的聚类算法的优点,并且可以有效地处理分布不均的数据集,减少了时间复杂度,适用于对大规模数据库的挖掘与分析。  相似文献   

13.
Exploratory spatial analysis is increasingly necessary as larger spatial data is managed in electro-magnetic media. We propose an exploratory method that reveals a robust clustering hierarchy from 2-D point data. Our approach uses the Delaunay diagram to incorporate spatial proximity. It does not require prior knowledge about the data set, nor does it require preconditions. Multi-level clusters are successfully discovered by this new method in only O(nlogn) time, where n is the size of the data set. The efficiency of our method allows us to construct and display a new type of tree graph that facilitates understanding of the complex hierarchy of clusters. We show that clustering methods adopting a raster-like or vector-like representation of proximity are not appropriate for spatial clustering. We conduct an experimental evaluation with synthetic data sets as well as real data sets to illustrate the robustness of our method.  相似文献   

14.
面向位置大数据的快速密度聚类算法   总被引:1,自引:0,他引:1  
本文面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点的密度扩展聚类转换成基于Cell的密度扩展聚类,大大减少高密度区域的距离计算,利用位置数据的内在特性提高了聚类效率;最后,在基准测试数据上验证了所提算法的聚类效果,在位置大数据上的实验结果统计显示,相比DBSCAN、PR-Tree索引和Grid索引优化的DBSCAN,CBSCAN分别平均提升了525倍、30倍和11倍效率.  相似文献   

15.
钱宇 《软件学报》2008,19(8):1965-1979
可视化技术的发展极大地提高了传统数据挖掘技术的效率.通过结合人类识别模式的能力,计算机程序能够更有效的发现隐藏在数据中的规律和信息.作为聚类分析的重要步骤,噪音消除一直都是困绕数据挖掘研究者的问题,尤其对于不同领域的应用,由于噪音的模型和定义不同,单一的数据处理方法无法有效而准确地去除域相关的噪音.本文针对这一问题,提出了一个新型的可视化噪音处理方法CLEAN.CLEAN的独特之处在于它设计的噪音处理技术和提出的可视化方法有机地结合在一起.噪音处理算法为可视化模型生成所需数据,同时针对噪音处理算法选择可视化方法,从而达到提高整个数据处理系统性能的目的.这样不仅降低了噪音去除过程中主观因素的影响,还可以帮助数据挖掘程序去除领域相关的噪音.同时源数据的质量,算法参数的选择和不同噪音去除算法的精确性都可以在所使用的可视化模型中反映出来.实验表明CLEAN能够有效地帮助空间数据聚类算法在噪音环境下发现数据的自然聚类.  相似文献   

16.
唐磊  李学庆  刘洋 《软件学报》2010,21(Z1):194-204
散点图矩阵由于其简单有效的优点而成为开发大规模数据集的一种流行和广泛使用的方法.然而,这种技术存在着一些缺陷,在处理大规模数据时,可能会因为数据点的交叉重叠产生视图混乱现象.另外,这种技术很难表现除二维分布之外的其他信息.为了解决上述问题,对当前的散点图技术进行了改进和扩展:a) 利用overview+detail 技术同时展现全局信息和局部信息;b) 利用聚类算法对散点图中的数据进行分组,避免视图混乱.c) 用棒状轴代替直线轴表达各维的数据分布密度,表现更多信息特性.d) 用直方图作为另一种方法表现各维密度信息.e) 开发了一些交互技术来调整视图.最后,设计了一组实验来说明该方法的正确性和有效性.该方法适用于工业,金融业等领域的大规模多维数据集的展示和分析.  相似文献   

17.
用多层次聚类法完成的大规模关系图的可视化   总被引:2,自引:0,他引:2  
提出了一种新的大规模图形可视化技术.它可显示含有几万个接点和边的大规模关系图.为了完成对图形的抽象化。一个多层次的聚类图形从原始的大规模关系图中抽取了出来.这种抽取是建立在大规模关系图的内在结构基础上来完成的.一种递规封入式的几何划分算法被应用来完成对几何空间的优化,在具体的制图技术上,使用了一种用力导向布局算法和环形制图法相结合的新方法,从而完成了对显示空间的优化和美擘上的优化.同时也讨论了相关的人机交互技术,所采用的人机交互算法不仅能让使用者从上到下层次式地浏览整个聚类图形。同时也能提供多层次聚类图形的并行浏览.动画技术也同时被运用,以保护使用者的精神图不被打乱.  相似文献   

18.
颜文胜 《计算机工程》2011,37(5):202-203,206
依据基因表达数据的特点,提出一种基于弹簧模型的基因表达数据可视化聚类方法,将多维空间的基因表达数据映射到二维空间中,较好地保持了原始多维数据间的时空相似性。实验结果表明,该方法能发现基因表达数据集中隐含的类簇结构以及共表达基因模式。  相似文献   

19.
We present a new methodology for exploring and analyzing navigation patterns on a web site. The patterns that can be analyzed consist of sequences of URL categories traversed by users. In our approach, we first partition site users into clusters such that users with similar navigation paths through the site are placed into the same cluster. Then, for each cluster, we display these paths for users within that cluster. The clustering approach we employ is model-based (as opposed to distance-based) and partitions users according to the order in which they request web pages. In particular, we cluster users by learning a mixture of first-order Markov models using the Expectation-Maximization algorithm. The runtime of our algorithm scales linearly with the number of clusters and with the size of the data; and our implementation easily handles hundreds of thousands of user sessions in memory. In the paper, we describe the details of our method and a visualization tool based on it called WebCANVAS. We illustrate the use of our approach on user-traffic data from msnbc.com.  相似文献   

20.
In this state-of-the-art report we discuss relevant research works related to the visualization of complex, multi-variate data. We discuss how different techniques take effect at specific stages of the visualization pipeline and how they apply to multi-variate data sets being composed of scalars, vectors and tensors. We also provide a categorization of these techniques with the aim for a better overview of related approaches. Based on this classification we highlight combinable and hybrid approaches and focus on techniques that potentially lead towards new directions in visualization research. In the second part of this paper we take a look at recent techniques that are useful for the visualization of complex data sets either because they are general purpose or because they can be adapted to specific problems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号