首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望.  相似文献   

2.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

3.
基于k均值分区的流数据高效密度聚类算法   总被引:2,自引:0,他引:2  
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的.  相似文献   

4.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

5.
随着流数据收集大量应用,数据流挖掘是数据挖掘的一个新的研究方向。本文在介绍数据流的基本特点以及分析了数据流对聚类的要求,并对现有高维数据流映射聚类算法的主要思想方法进行了总结。最后对面向高维数据流聚类的发展方向进行了展望。  相似文献   

6.
基于距离与熵的混合属性数据流聚类算法   总被引:1,自引:0,他引:1  
针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象问的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性.  相似文献   

7.
邓维维  彭宏 《计算机科学》2007,34(9):125-127
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。  相似文献   

8.
针对传统数据流聚类算法自适应性不强、对问题的依赖性过高以及聚类质量不够理想、聚类效率低下等缺陷,提出一种基于人工免疫原理的数据流聚类IMStream算法。该算法通过引入衰减函数和时刻权重来反映过去的数据与当前流入的数据在整个数据流中的地位,通过计算抗体期望克隆率E(xi)来限制抗体克隆的数目以及保持抗体的多样性,通过采取网络中的淘汰策略使最终的网络结构更符合原始数据流的内在特性。在真实数据集和人工数据集上的实验表明,IMStream算法比传统的数据流聚类算法具有更好的性能。  相似文献   

9.
基于滑动窗口的进化数据流聚类   总被引:24,自引:0,他引:24  
常建龙  曹锋  周傲英 《软件学报》2007,18(4):905-918
提出了纳伪(false positive)和拒真(false negative)两种聚类特征指数直方图分别来支持纳伪误差和拒真误差窗口的聚类分析;然后,提出一种基于滑动窗口的数据流聚类方法.该方法在占用窗口大小的次线性内存空间前提下,及时保存最近数据记录的分布状况,从而实现对滑动窗口内的数据进行聚类.此外,它还可被扩展用于N-n窗口(滑动窗口的扩展模型)的数据聚类.实验采用KDD-CUP'99和KDD-CUP'98真实数据集以及变换高斯分布的人工数据集构造进化数据流.理论分析和  相似文献   

10.
多数据流的增量聚类实现与应用   总被引:1,自引:1,他引:0       下载免费PDF全文
张锡琴 《计算机工程》2009,35(14):49-51
针对时间序列数据流的增量聚类研究较少的现状,采用多维时态子空间聚类对数据流的增量聚类进行探究。多维时态子空间聚类是指在连续一段时间内,数据流中的值的距离小于2α,它的另一个要求是最后的聚类结果必须包含一定数量的数据流。聚类结果随时间的演变能持续增量地更新,这个更新机制采用滑动窗口的形式,把最早时刻的数据删除后,添加入新到达的数据。采用股票数据对算法进行测试与验证,实验证明,该算法效果较好。  相似文献   

11.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

12.
基于图形处理器的数据流快速聚类   总被引:16,自引:1,他引:16  
曹锋  周傲英 《软件学报》2007,18(2):291-302
在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化分析方法.这些方法的共同特点是充分利用了GPU强大的处理能力和流水线特性.与以往具有独立框架的数据流聚类算法不同,这些基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一的平台.从分析可知,数据流聚类分析的核心操作实际上就是距离计算和比较.基于这一认识,利用GPU的子素向量处理功能进行距离计算.性能验证实验是在配有Pentium IV 3.4G CPU和NVIDIA GeForce 6800 GT显卡的PC上进行的.综合分析和实验结果表明,基于GPU的数据流聚类算法比传统的CPU算法平均快7倍,从而为高速数据流应用提供了良好的支持.  相似文献   

13.
动态滑动窗口的数据流聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。  相似文献   

14.
基于密度的优化数据流聚类算法   总被引:2,自引:1,他引:1  
为了解决数据流聚类算法中有效处理离群点这一关键问题,改进了基于密度的数据流聚类算法,在DenStream算法基础上提出了具有双检测时间策略DDTS(double derection time strategy)的基于密度的数据流聚类算法.该策略在数据流流速波动的情况下,结合时间与流数据数量两方面因素对微簇进行测试.通过在线动态维护和删减微簇,保存可能升级的离群点来改善聚类效果.实验结果表明,改进算法具有良好的适用性和有效性,能够取得较高的聚类质量.  相似文献   

15.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

16.
流聚类模型及其统一表示   总被引:1,自引:0,他引:1       下载免费PDF全文
数据流是带有时间属性、持续到达的数据序列,实际中有不同的应用形式。采用应用驱动的研究思路,从具体应用中抽象出4种不同的数据流模型,提取出数据维数和子流个数等2个参数,将各种数据流模型在表示形式上统一起来,分析不同数据流模型的聚类方法,探索并给出一个基于滑动窗口的统一数据流模型聚类挖掘框架。  相似文献   

17.
利用小波网络对数据流进行压缩,从而建立新的数据流概要结构,它的规模比原始数据流的规模要小很多,用其来保存原始数据流的主要特征,进行偶合特征提取分析,获取反应数据流变化趋势的相似度,研究其相关性;对k-means 进行改进提出一种改进的聚类方法CCK-Stream(coincidence characteristic K-means).理论分析与仿真实验结果表明,其数据压缩比高,CCK-Stream聚类方法的可行性以及聚类质量较好,而且在存储空间性能上表现较佳,且具有较高的稳定性.  相似文献   

18.
数据流聚类分析是数据流挖掘的重要手段之一.为满足数据流不断演化及高速处理的要求,提出一种领域覆盖的数据流聚类算法NCStream(Stream clustering algorithm based on Neighborhood Covering).该算法通过建立领域覆盖模型,详细定义和分析了数据流演化过程中覆盖簇调整、创建、删除和合并的行为操作,并同时对覆盖簇的聚类特征予以在线维护.与同类算法相比,NCStream算法无需事先指定聚类簇数,避免参数设置对聚类结果造成的影响,而且易于建立空间索引,因此能够更加有效地反映数据流的演化情况.实验采用无线电实际监测数据集构造数据流,实验结果表明NCStream算法在聚类形状、聚类质量以及处理时间方面具有更好的性能.  相似文献   

19.
现有的数据流聚类方法很难兼顾数据稀疏和子空间聚类等高维数据难题,而分布式数据流对数据流聚类提出包括在线计算效率、通信开销以及多路数据的融合等更多挑战。提出分布式数据流聚类方法,采用全局统一的网格划分和衰退时间以支持多路数据流融合,并周期性检查和删除过期网格来控制概要规模。通过对多路高维数据流的一遍扫描,发现高维数据流子空间任意形状的聚类,并反映数据分布随时间的演化。在线组件效率高开销低,概要信息简洁,通信代价低。实验表明,该方法能够对分布式数据流正确聚类并演进,在线组件效率高,概要规模小。  相似文献   

20.
曲武  王莉军  韩晓光 《计算机科学》2014,41(11):195-202
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号