首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
分布式数据流增量聚集   总被引:2,自引:0,他引:2  
分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approximately incremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的.  相似文献   

2.
分布式复式数据流的处理   总被引:3,自引:1,他引:3  
在分布式数据流环境中,系统的通信带宽是一种瓶颈资源.在保证查询精度的前提下,为了有效地减少网络中数据流的传输量,提出了一种新的数据流传输方式,称为复式数据流.复式数据流方法是将分布式数据流系统中的原始数据流分组合并成复式数据流之后再进行传输.在定义了复式数据流的基础上,给出了复式数据流的生成算法,并且分析了基于复式数据流的查询操作的误差度,讨论了构造复式数据流的相关问题,最后通过实验验证了这种方法的有效性.  相似文献   

3.
网络信息技术的高速发展产生了新的数据模型,即数据流模型,并且越来越多的领域出现了对数据流实时处理的需求,庞大且高速的数据以及应用场景的实时性需求均推进了数据流挖掘技术的发展。首先介绍了常见的数据流模型;然后根据数据流模型的特点总结数据流挖掘的支撑技术;最后,分析了分布式数据流挖掘的重要性和有效性,给出了算法并行化的数学模型,并介绍了几种具有代表性的分布式数据流处理系统。  相似文献   

4.
分布式处理是数据流管理系统发展的必然趋势。文章研究了分布式数据流的连接查询,提出DM3Join算法,它由2部分组成:一是通过分解并发的连接请求,合并相同的连接谓词,形成分布式查询操作算子;二是数据流在各分布式代理(Agent)中流转实现部分连接,并在查询引擎处组合成最终结果。DM3Join算法采用了一种类似路由表的结构执行窗口连接,由于可以共享中间结果,算法只需扫描数据1遍。分析和实验证明,该连接算法是高效的。  相似文献   

5.
围绕挖掘动态数据流频繁模式问题,详细讨论数据流管理模型和挖掘技术;设计兼容网格基础结构、支持多种挖掘策略的数据挖掘网格平台;发展伺机挖掘思想,根据局部数据流片段的特性不断地调整存储结构和变换搜索方式,解决效率与空间的矛盾,提高微观效率;应用网格技术有效地利用计算资源进行分布式挖掘,提高宏观效率。  相似文献   

6.
在介绍数据流及数据流系统的模型后,对降载时的系统约束、输出质量目标进行了正式阐述。提出数据流系统降载策略的分类方法 ,着重分析了目前一些较为重要的数据流系统降载策略,指出其特征和应用范围 ,最后总结了好的数据流降载策略应具有的特点以及未来研究的发展趋势。  相似文献   

7.
分布式数据流上的Skyline计算   总被引:1,自引:0,他引:1  
为了降低分布式数据流上的连续Skyline计算过程中的通信开销,提出了基于远程过滤的思想并对相关理论基础进行了证明,描述了系统的体系结构并提出了两个过滤模型v_Max和Distance。理论分析和实验结果证明了所提方法在某些数据分布情况下降低通信开销的有效性。  相似文献   

8.
分布式数据流系统中,当输入数据流速发生较大波动时,会引起部分节点过载,从而影响整个系统的数据处理能力。针对这个问题,该文分析了分布式数据流系统的特点以及现有负载平衡算法的局限性,提出了一种利用多层重叠结构进行负载信息收集和负载分配的平衡算法。该算法利用虚拟树形结构进行负载信息的收集和负载分配,具有较好的扩展性能。以环形虚拟结构中保存的节点相对位置信息为依据进行负载移动,从而有效降低系统的响应时间。实验结果表明该算法具有良好的负载平衡能力和一定的应用价值。  相似文献   

9.
随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普通,例如传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用。这些应用的特征是环境配备有多个分布式计算节点;这些节点往往临近于数据源;分析和监控这种环境下的数据,往往需要对挖掘任务、数据分布、数据流入速率和挖掘方法有一定的了解。综述了分布式数据流挖掘的当前进展概况,并展望了未来可能的、潜在的专题研究方向。  相似文献   

10.
数据流系统中卸载技术研究综述   总被引:2,自引:1,他引:1  
随着数据流应用系统的快速流行,流数据管理对数据库技术提出了巨大挑战。由于数据流经常是爆发性的且数据特征可能随时变化,因此要求数据流管理系统具有很好的自适应性。当输入速率超过系统处理能力时,系统会产生过载且性能下降。为了解决这一问题,卸载技术是有效的途径之一。卸载时间、卸载地点和卸载数量是与卸载技术密切相关的三个主要问题,本文主要从这三个方面来综述和分析目前各个数据流系统所采用的卸载技术。  相似文献   

11.
分布式流处理技术综述   总被引:7,自引:0,他引:7  
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式应运而生.首先回顾分布式流处理技术产生的背景以及技术演进过程,然后将其与其他相关大数据处理技术进行对比,以界定分布式流数据处理的外延.进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析,指出现有解决方案的优势和不足.随后,介绍S4,Storm,Spark Streaming等几种具有代表性的分布式流处理系统,并对它们进行系统地对比.最后,给出分布式流处理在社交媒体处理等领域的几种典型应用,并探讨分布式流处理领域进一步的研究方向.  相似文献   

12.
高效处理分布式数据流上skyline 持续查询算法   总被引:1,自引:0,他引:1  
孙圣力  李金玖  朱扬勇 《软件学报》2009,20(7):1839-1853
基于非共享策略,围绕着降低系统反应延迟与通信负荷的目标,提出了一种分两阶段渐进求解的分布式算法BOCS(based on the change of skyline),并对算法的关键实现环节,如协调站点与远程站点间的通信、skyline 增量的计算等进行了系统优化,使算法在通信负荷与反应延迟上达到了较好的综合性能.理论分析证明,在所有基于非 共享策略的算法中,BOCS 算法通信最优.大量的对比实验结果也表明,所提出的算法高效、稳定且具有良好的可扩展性.  相似文献   

13.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

14.
随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而,在Key-based分组并行处理中,由于数据的倾斜分布及数据流本身的实时、动态和数据规模不可预知等特性,使得数据流分布并行处理系统存在持续且动态的负载不均衡现象,这会造成系统时效性降低、硬件资源浪费等问题.现有的研究工作处理均衡负载有两种方案:1)基于key粒度的迁移使得并行处理节点负载达到均衡,2)基于元组粒度级别的拆分,采用随机分发来使系统均衡.前者将系统调整至给定的均衡容忍范围内,类似于一维装箱的NP问题;后者对key的拆分势必带来新的为维护Key-based操作的正确性而增加的额外代价,如内存及网络通信成本.本文综合两种方法,提出对key按需拆分、尽量合并的方法,通过轻量级均衡调整算法以及保证Key-based操作特性的拆分方法,使系统既能达到后者的均衡,又能减少细粒度均衡所带来的额外代价.  相似文献   

15.
针对传统分布式数据流挖掘算法的通信开销较大、分类精度较低的问题,提出一种基于支持向量数据描述的分布式数据流挖掘算法。利用局部站点快速更新数据流信息,采用支持向量机算法学习元级数据并传递到中心站点。中心站点负责接收及合并元级数据,形成全局分类结果。实验结果表明,该算法能在降低局部站点和中心站点网络通信量的同时,获得较高精度的全局分类结果。  相似文献   

16.
17.
提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局聚类结果。实验结果表明,该算法能减少网络通信量,提高全局聚类精度。  相似文献   

18.
数据流挖掘中很多算法是基于定长滑动窗口的,定长滑动窗口的缺点是很难设置窗口的大小,而且对数据流分布的不同类型不存在最优大小的窗口,因此算法的性能较差。提出了可变滑动窗口算法,通过高效维护一个静态的最大范化均值完成。该常量在全部时间窗口中被最大化因而使用变长窗口。其他算法可以用该方法重新描述。实验表明了范化均值的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号