首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望.  相似文献   

2.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式。流挖掘是数据库领域的研究热点,有很大的应用前景。本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结。在本文的最后,对流数据挖掘的前景做出展望。  相似文献   

3.
实时数据流聚类是目前国际数据库和数据管理领域的新兴研究热点.综述了实时数据流聚类的最新研究进展,在介绍实时数据流聚类的相关理论和常用技术的基础上,对现有各种代表性算法的优势和不足进行了系统地分析,从处理速度、聚类形状、演化分析、高维性及噪声健壮性5个方面对算法的性能进行了比较.探讨了基于聚类的实时数据流演化分析方法及其局限性.最后展望了将来可能的研究方向.  相似文献   

4.
本文提出的基于网格的数据流聚类算法,克服了算法CluStream对非球形的聚类效果不好等缺陷,不仅能在噪声干扰下发现任意形状的类,而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。  相似文献   

5.
近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段之一,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带来了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。  相似文献   

6.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

7.
基于数据流的任意形状聚类算法   总被引:36,自引:4,他引:36  
朱蔚恒  印鉴  谢益煌 《软件学报》2006,17(3):379-387
详细分析了数据流聚类算法CluStream的不足之处,如对非球形的聚类效果不好、对周期性数据的聚类变化反映不完整等,并针对这些不足之处提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream.实验结果表明,ACluStream在准确度和速度上都比CluStream有较大的提高.  相似文献   

8.
数据流的网格密度聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.  相似文献   

9.
刘力雄  郭云飞  康晶  马宏 《计算机工程与设计》2011,32(8):2708-2711,2763
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream。该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性。由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型。仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量。  相似文献   

10.
数据流挖掘算法研究综述   总被引:15,自引:3,他引:15  
蒋盛益  李庆华  李新 《计算机工程与设计》2005,26(5):1130-1132,1169
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。  相似文献   

11.
基于形态特征的数据流聚类方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴学雁  黄道平 《计算机工程》2011,37(13):46-48,51
在聚类过程中为保留数据的重要形态与趋势特征,提出一种基于形态特征的数据流聚类方法。在初始化阶段提取重要特征点表示序列分段,在在线更新阶段使用部分动态时间弯曲方法计算子序列距离,基于动态滑动窗口思想保证多条数据流中数据的同步,在用户触发聚类阶段提出数据流聚类方法。通过对仿真数据和实际股票数据的分析结果表明,在参数设置合理的情况下,该方法可以获得接近0.95的聚类演化精度。  相似文献   

12.
一种混合属性数据流聚类算法   总被引:5,自引:0,他引:5  
杨春宇  周杰 《计算机学报》2007,30(8):1364-1371
数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能.  相似文献   

13.
进化数据流中基于密度的聚类算法   总被引:1,自引:1,他引:0  
分析当前数据流聚类算法的优点及不足,提出一种新的进化数据流中基于密度的聚类算法——Sdstream算法,该算法能够分析并处理大规模进化数据流,利用真实数据集和仿真数据集对其进行性能测试,实验结果表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较高的聚类效果。  相似文献   

14.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

15.
基于滑动窗口的支持泛在应用的流聚类挖掘算法   总被引:2,自引:0,他引:2  
近年来,泛在数据流挖掘逐渐成为数据挖掘发展的新热点,它具有在有限的资源上去挖掘无限的数据流,并可随时随地返回挖掘结果的特点,对此,本文提出一种基于滑动窗口的流聚类算法;该方法将一个滑动窗口分成n个大小相等的窗口单元,基于窗口单元进行增量式的知识相关性的挖掘,提高了流挖掘的效率;当窗口滑动时,通过衰变函数衰减当前滑动窗口内的第一个窗口单元的挖掘结果,并在当前滑动窗口挖掘结果中将其剔除,实现下一滑动窗口的增量式挖掘.  相似文献   

16.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

17.
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性.  相似文献   

18.
胡伟  徐福缘  马庆国 《计算机科学》2012,39(2):198-202,221
外包数据库中的连接查询比范围查询更困难,因为客户端需要验证连接结果的一致性,而传统的对单个表的签名不能有效地支持对连接查询结果的直接验证。提出了使用哈希连接保证数据一致性的2种算法,它们分别通过在服务器端和客户端计算哈希函数来实现连接查询。给出了这2种算法的详细描述,证明了它们满足一致性要求,而且分析了算法在通信量、服务器端和客户端执行的代价。最后在实验中通过设置不同的参数对它们在服务器端和客户端的运行时间进行了比较,总结了它们在实际应用中的优缺点。  相似文献   

19.
针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过 树进行空间划分,可将到达数据映射到不同的划分区域,在树得到质量(mass)的基础上,进行各子区域的密度推算的同时引入衰减因子,以及在线动态维护微簇,可精确反映空间数据流的演化信息。该方法在真实数据与模拟数据的综合试验中验证了算法的聚类效果与高效率性,并通过与传统数据流聚类算法的对比,进一步体现出其在聚类效果上的优势。该方法能够在保证较低的时间复杂度的基础上,更好的保留了数据的空间位置特性,因而能够更好的适应空间数据流聚类的需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号