首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

2.
聚类通常被用于对数据进行快速探索性数据分析,然而传统的聚类方法并不能及时有效对源源不断的数据进行快速分析。近年来,流数据聚类方法的出现解决了这一问题。基于当前对流数据聚类方法的研究,针对流数据聚类方法进行概述,首先介绍流数据聚类常用的窗口模型;其次,依据基础依赖的批处理方法从层次方法、分区方法、密度方法、网格方法和模型方面分别介绍了近几年相关的流数据聚类方法,并简要介绍流数据方法相关应用;最后,总结当前流数据聚类实验中常用的指标,以及当前论文中常用的数据集。  相似文献   

3.
朱强  孙玉强 《计算机应用》2014,34(9):2505-2509
传感器节点的资源是有限的,高的通信开销会消耗大量的电量。为了减小分布式流数据分类算法的通信开销,提出一种高效的分布式流数据聚类算法。该算法包含在线局部聚类和离线全局协同聚类两个阶段。在线局部聚类算法将每个流数据源进行局部聚类,并将聚类后的结果通过序列化技术发往协同节点;协同节点得到来自不同流数据源的局部聚类信息后进行全局聚类。从实验中可以看出,当不断增加窗口的大小时,算法用于数据发送的时间恒定不变,算法的聚类时间和总的时间呈线性增长,即所提出算法的执行时间不受滑动窗口宽度和聚类个数的影响;同时该算法与集中式算法的准确性接近,并且通信开销远远小于相关的分布式算法。实验结果表明,该算法具有很好的可扩展性,可应用于对大规模分布式流数据源进行聚类分析。  相似文献   

4.
Web流数据聚类挖掘技术研究   总被引:1,自引:0,他引:1  
流数据作为近年来比较重要的一种数据形式,得到了广泛的关注。但由于流数据本身的特点,无法使用传统的算法来对其进行聚类分析。文中在介绍流数据等基本概念的基础上,讨论了流数据聚类的特点,并介绍了目前较为常用的流数据聚类算法。  相似文献   

5.
刘建伟  李卫民 《计算机科学》2009,36(11):148-151
传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要研究新的流数据模式查询算法.提出了一种基于摘要技术的在线快速混合模型流数据聚类算法,该算法为分阶段混合模型聚类过程.算法首先时最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,提取足够的统计信息.对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块用多维网格结构进行划分,对划分形成的每一个单元提取足够的摘要信息.对该摘要运行基于模型的贪心聚类算法形成聚类混合模型.在判断是否可以把新到达的模型合并到现有的混合模型中去时,提出了三种合并标准.实验表明,该算法减少了分类误差,其速度也比传统的基于模型的贪心聚类算法大大加快.  相似文献   

6.
流数据的聚类算法是当前数据挖掘的研究热点之一。本文在分析两层流数据聚类框架的基础上,引入了动微簇、成长簇等概念和FRG思想,提出了Growstream算法,更能反映出流数据的动态特性。  相似文献   

7.
提出一种能够有效处理大规模分布的数据聚类问题且简化计算复杂度的分阶段非线性聚类方法,该算法包含两个阶段:首先将数据划分为若干个球形分布的子类,采用K近邻图理论对原始数据计算顶点能量并提取顶点攻能量样本;再采用K近邻算法对该高能量样本做一个划分,从而得到一个考虑高能量样本的粗划分同时估计出聚类的个数,最后,综合两次聚类结果整理得到最终聚类结果。该方法的主要优点是可以用来处理复杂聚类问题,算法较为稳定,并且在保持聚类正确率的同时,降低了大规模分布数据为相似性度量的计算代价。  相似文献   

8.
事件流是近年来兴起的一种对实时进入系统的海量数据进行分析查询的应用,而数据特征是评价系统所需要的负载模型的重要部分。以网络安全监控为背景,提出一种将事件流聚集成时间序列并进行相似性聚类来分析数据特征的方法。通过适当的粒度聚合,将事件流转化成时间序列,选取周期性的时间序列作为代表消除随机干扰,给出基于序列线性相似性的聚类算法。聚类试验表明,具有相似时间特征的事件流可以被有效地聚集到同一类中。  相似文献   

9.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。  相似文献   

10.
近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段之一,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带来了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。  相似文献   

11.
由于数据流数据的动态性、时序性和数据量大等特点使得数据流上的数据挖掘变得更加困难和富有挑战。通过对Squeezer聚类算法的研究分析,并基于此算法提出了一种新的基于聚类的数据流离群数据检测算法O-Squeezer。把数据流看成一个随时间变化的过程,并将其分成许多数据分区,在每个数据块内用改进的O-Squeezer算法挖掘离群数据。理论分析和实验表明,算法可以有效发现数据流中的局部离群数据,算法是可行的。  相似文献   

12.
由于数据流数据的动态性、时序性和数据量大等特点使得数据流上的数据挖掘变得更加困难和富有挑战.通过对Squeezer聚类算法的研究分析,并基于此算法提出了一种新的基于聚类的数据流离群数据检测算法O-Squeezer.把数据流看成一个随时间变化的过程,并将其分成许多数据分区,在每个数据块内用改进的O-Squeezer算法挖掘离群数据.理论分析和实验表明,算法可以有效发现数据流中的局部离群数据,算法是可行的.  相似文献   

13.
基于数据流的任意形状聚类算法   总被引:36,自引:4,他引:36  
朱蔚恒  印鉴  谢益煌 《软件学报》2006,17(3):379-387
详细分析了数据流聚类算法CluStream的不足之处,如对非球形的聚类效果不好、对周期性数据的聚类变化反映不完整等,并针对这些不足之处提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream.实验结果表明,ACluStream在准确度和速度上都比CluStream有较大的提高.  相似文献   

14.
针对主动挖掘和被动挖掘2种典型分类方法的特点,分析实际问题中数据流的基本变化类型及衍生的各种变化情况,证明主动挖掘方法在许多情况下无法有效工作,给出一个有效检测数据流变化的思路。采用主动学习方法,利用有限的资源可以组织高质量的类标数据,降低训练数据的需求量。  相似文献   

15.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

16.
为了平衡隐含概念漂移的数据流分类算法的分类精度和效率之间的矛盾,提出了基于聚类决策树的框架来处理快速到达的数据流,通过将不能实时分类的数据预聚类成n个类,并基于聚类结果产生VFDT新分支或替代原有分支。实验结果证明,聚类决策树框架算法在预测精度和效率上均有一定的提升。  相似文献   

17.
数据流中一种快速启发式频繁模式挖掘方法   总被引:10,自引:0,他引:10  
张昕  李晓光  王大玲  于戈 《软件学报》2005,16(12):2099-2105
在现有的数据流频繁模式挖掘算法中,批处理方法平均处理时间短,但需要积攒足够的数据,使得其实时性差且查询粒度粗;而启发式方法可以直接处理数据流,但处理速度慢.提出一种改进的字典树结构--IL-TREE(improved lexicographic tree),并在其基础上提出一种新的启发式算法FPIL-Stream(frequent pattem mining based on improved lexicographic tree),在更新模式和生成新模式的过程中,可以快速定位历史模式.算法结合了倾斜窗口策略,可以详细记录历史信息.该算法在及时处理数据流的前提下,也降低了数据的平均处理时间,并且提供了更细的查询粒度.  相似文献   

18.
基于时间衰减模型的数据流频繁模式挖掘   总被引:1,自引:0,他引:1  
吴枫  仲妍  吴泉源 《自动化学报》2010,36(5):674-684
频繁模式挖掘是数据流挖掘中的重要研究课题. 针对数据流的时效性和流中心的偏移性特点, 提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法. 该算法通过动态构建全局模式树, 利用时间指数衰减函数对模式树中各模式的支持数进行统计, 以此刻画界标窗口内模式的频繁程度; 进而, 为有效降低空间开销, 设计了剪枝阈值函数, 用于对预期难以成长为频繁的模式及时从全局树中剪除. 本文对出现在算法中的重要参数和阈值进行了深入分析. 一系列实验表明, 与现有同类算法MSW相比, 该算法挖掘精度高(平均超过90%), 内存开销小, 速度上可以满足高速数据流的处理要求, 且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.  相似文献   

19.
随着网络的发展和通讯设备的普及,一种新的数据密集型应用逐渐浮出水面,这主要包括:网络监控、电信数据管理、传感器数据监控等。在这些应用中数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式。同时,这些应用对数据的访问也是多次和连续的,并要求即时的响应,而传统的数据库技术对数据的假设和相应的查询处理技术已经无法适应这种新的应用的要求。因此,文中根据这种流式数据的特征设计了一种新的基于数据流的数据模型,并就今后如何进行数据流管理系统的研究提出一些新的看法。  相似文献   

20.
针对数据流间“模式依赖”问题,给出了一种模式依赖挖掘算法,该算法包括:挖掘前时间序列分段和模式表示,条件规则元组的创建和维护,模式依赖的置信度和支持度计算,2个或N个数据流概要结构的设计等。股票数据实验和实际系统表明,该挖掘方法能够有效地发现数据流间的模式依赖,可用于预测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号