首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
数据流上具有数据遗忘特性的小波概要   总被引:1,自引:0,他引:1       下载免费PDF全文
动态地维护数据流的概要结构是数据流查询和挖掘等处理工作的基础.在许多数据流应用场合,数据的影响随时间衰减,流中数据被逐步遗忘,称为数据流的遗忘特性.在数据流概要的构造中,应体现这种特性.离散小波变换是一种应用得较多的数据流概要构造方法.将数据流的遗忘特性引入小波概要的构造中,提出了一种能反映数据流遗忘特性的小波概要结构:基于小波的分层遗忘概要,分别讨论了误差平方和及最大绝对误差两种误差度量标准下这种概要的构造方法.所进行的实验验证了该概要的有效性.  相似文献   

2.
利用数据流的遗忘特性,应用随机投影,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流和聚类中心之间的近似距离,实现一种适合并行多数据流的K-means聚类方法.所进行的实验验证该方法的有效性.  相似文献   

3.
数据流挖掘可有效解决大容量流式数据的知识发现问题,并已得到广泛研究.数据流的一个典型的例子是传感器采集的流式数据.然而,随着传感器网络的应用普及,这些流式数据在很多情况下是分布式采集和管理的,这就必然导致分布式地挖掘数据流的需求.分布式数据流挖掘的最大障碍是由分布式而导致的挖掘质量或者效率问题.为适应分布式数据流的聚类挖掘,探讨了分布式数据流的挖掘模型,并且基于该模型设计了对应的概要数据结构和关键的挖掘算法,给出了算法的理论评估或者实验验证.实验说明,提出的模型和算法可以有效地减少数据通信代价,并且能保证较高的全局模式的聚类质量.  相似文献   

4.
利用小波网络对数据流进行压缩,从而建立新的数据流概要结构,它的规模比原始数据流的规模要小很多,用其来保存原始数据流的主要特征,进行偶合特征提取分析,获取反应数据流变化趋势的相似度,研究其相关性;对k-means 进行改进提出一种改进的聚类方法CCK-Stream(coincidence characteristic K-means).理论分析与仿真实验结果表明,其数据压缩比高,CCK-Stream聚类方法的可行性以及聚类质量较好,而且在存储空间性能上表现较佳,且具有较高的稳定性.  相似文献   

5.
6.
随着传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等的不断产生,数据流成为了主要的数据形式.流挖掘是数据库领域的研究热点,有很大的应用前景.本文首先简单介绍了数据流与聚类分析的概念,阐述了数据流中的聚类分析及其要求,详细说明了主要传统聚类方法的演变及各自代表性流数据聚类算法,并对其进行总结.在本文的最后,对流数据挖掘的前景做出展望.  相似文献   

7.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

8.
针对传统的聚类分析技术面对长度无限且随时变化的海量级数据流无法直接使用或使用缺陷突出等问题,从数据流自身特性出发,结合小波变换与量子理论,提出一种新的数据流量子聚类算法。该算法首先采用离散小波变换,从每个数据流中动态分层地提取出其概要结构作为其相应的特征属性,同时计算出每个数据流到聚类中心的近似距离,结合量子理论估算出较优的核宽度调节参数进行类调整,最终获得一个较为理想的聚类效果。实验表明,该算法较好地解决了传统聚类方法无法良好解决的多数据流并行聚类问题,并表现出较好的聚类性能。  相似文献   

9.
基于网格的数据流聚类算法   总被引:2,自引:2,他引:0  
本文提出的基于网格的数据流聚类算法,克服了算法CluStream对非球形的聚类效果不好等缺陷,不仅能在噪声干扰下发现任意形状的类,而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。  相似文献   

10.
基于数据流的任意形状聚类算法   总被引:40,自引:4,他引:36       下载免费PDF全文
朱蔚恒  印鉴  谢益煌 《软件学报》2006,17(3):379-387
详细分析了数据流聚类算法CluStream的不足之处,如对非球形的聚类效果不好、对周期性数据的聚类变化反映不完整等,并针对这些不足之处提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream.实验结果表明,ACluStream在准确度和速度上都比CluStream有较大的提高.  相似文献   

11.
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。  相似文献   

12.
袁正午  袁松彪 《计算机工程》2010,36(7):61-62,65
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。  相似文献   

13.
随着Web的大规模应用,分布式数据流的数量迅速增长,其查询处理面临极大的挑战。该文开发了分布式数据流响应查询的P2P中间件原型,利用基于内容路由所提供的可扩展性、通信负载平衡及动态适应性等特性,能有效地处理相似查询,支持内积查询。模拟实验表明该索引机制能减少网络连接的计算资源,提高数据流查询处理效率。  相似文献   

14.
廖豪  梁峰  谭建龙 《计算机工程》2010,36(23):31-33,35
在研究数据流过程中,基于现有的概要数据结构Bloom Filter,给出改进的K Bloom Filter结构,从理论上对假阳性误判进行分析,得出两者具有相同的在误判率f0下表示集合规模的上限n0,因此,K Bloom Filter的误判率在可控范围内。提出基于K Bloom Filter的流计数算法,与基于Bloom Filter的流计数算法相比,在相同的空间复杂度O(m)和插入操作时间复杂度O(k)情况下,该算法降低了统计结果的误差。  相似文献   

15.
杨颖  杨磊 《计算机应用》2008,28(1):136-139
对分布式流数据中频繁项的发现算法进行了研究,利用一种新颖的分布式概要算法(DSA)来发现从叶子节点直至根节点的概要结构,通过在不同的分布状态下设置相应的精确梯度来最小化通信负载,并利用真实数据集验证了该结构和算法的有效性。  相似文献   

16.
基于形态特征的数据流聚类方法研究   总被引:1,自引:0,他引:1  
吴学雁  黄道平 《计算机工程》2011,37(13):46-48,51
在聚类过程中为保留数据的重要形态与趋势特征,提出一种基于形态特征的数据流聚类方法。在初始化阶段提取重要特征点表示序列分段,在在线更新阶段使用部分动态时间弯曲方法计算子序列距离,基于动态滑动窗口思想保证多条数据流中数据的同步,在用户触发聚类阶段提出数据流聚类方法。通过对仿真数据和实际股票数据的分析结果表明,在参数设置合理的情况下,该方法可以获得接近0.95的聚类演化精度。  相似文献   

17.
数据流分析与技术研究   总被引:1,自引:0,他引:1  
数据流作为一种新的数据形态,不同于传统的静态数据,具有连续快速、短暂易逝和不可预测的特点,对其进行有效地分析和挖掘遇到了极大的挑战。介绍了数据流的基本概念、数据流模型、数据流处理模型和目前一些数据流管理系统,并对数据流技术及其挖掘算法进行归纳和分类论述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号