首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
大数据流式计算:关键技术及系统实例   总被引:5,自引:0,他引:5  
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.  相似文献   

2.
为缓解目前的大数据流式计算引擎在处理密集窗口时因高负载而带来的性能下降问题,文章分析了原生窗口机制的性能瓶颈以及现有优化方法的不足之处,包括需要额外的内存空间用于存储输入的数据流、无法自动清理状态缓存等,提出一种基于关键窗口机制的优化方案,该方案能够减少流式计算中需要创建的窗口数量,具有降低系统负载的效果。通过与原生机制进行对比分析,证明此优化方案的有效性。该优化方案具有能兼容现有框架、对下游系统改造少及同时提升内存占用和I/O频率两个方面性能的优点。  相似文献   

3.
时间序列数据立方的存储与聚集计算   总被引:1,自引:0,他引:1  
本文讨论了从时序数建造、存储数据立方,以及聚集计算的算法,其中N23算法和扩展的EN23算法可以方便地将一个N(N〉3)维数据方立转换为三维数据立方,大大降低了I/O次数,极大地提高了运行效率。  相似文献   

4.
在流式大数据系统测试过程中,测试数据集越真实,得到的测试报告越可信。然而真实大量的流式数据并不容易获取,因此需要一种方法能够产生大量符合真实场景特征的数据。这些特征包括数据属性相关性、数据时序相关性、数据流的流速变化等等。在流式大数据环境下,数据的时序相关性与流速变化尤为重要。本文提出了一种适用于流式大数据系统测试的数据生成方法,以真实场景的数据集作为种子数据,对种子数据采用最大互信息系数描述数据属性间的相关性,改进了Prim算法对属性列集合进行分组,在尽量保证属性列强相关的前提下提高生成效率,接着提出了一种时序模型选择策略,保证生成的数据在时序上的相关性,提出了双层滑动窗口的方法控制流数据输出速度。最后,本文比较了提出的方法与其他流数据生成方法的生成效率。  相似文献   

5.
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster, TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小.  相似文献   

6.
流式计算是大数据的一种重要计算模式,大数据流式计算已成为研究热点。任务管理是大数据流式计算的核心功能之一,负责对流式计算的任务进行资源调度及全生命周期管理。目前对于大数据流式计算的技术调研工作主要集中于流式计算应用需求、体系结构及整体技术,缺乏对大数据流式计算任务管理技术的精细化调研分析。首先给出流式计算任务管理的抽象功能模型,其次基于该模型对任务管理的关键技术进行了分类和综述,最后对既有主流的大数据流式计算系统对上述关键技术的应用、集成和优化进行了调研分析。  相似文献   

7.
由于延迟容忍网络具有高延迟,低数据传输率,拓扑动态变化等特点,设计有效的路由算法一直是延迟容忍网络研究的热点问题.该文在概率模型的DTN中提出了一种数据聚集算法DADTN(Data Aggregation algorithm for Delay Tolerant Networks).对于目的节点相同的一些数据包可以通过网内聚合(In-network aggregation)方法聚集成为一个数据包.为了衡量每个节点聚集局部数据包和交付数据包到目的节点的能力,算法定义了聚集交付能力的概念.数据包则由聚集交付能力小的节点向聚集能力大的节点进行传输,实施聚集操作.仿真分析表明,与Epidemic和PRoPHET算法相比,DADTN算法能以较低的数据包转发次数获得较高的数据传输成功率.  相似文献   

8.
基于流式计算的空间科学卫星数据实时处理   总被引:1,自引:0,他引:1  
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。  相似文献   

9.
随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数据快视处理数据流特点的基础上,应用Storm框架对现有系统进行并行优化,设计遥感数据流处理任务拓扑结构,同时利用消息队列中间件Kafka改进处理单元间数据交换和数据缓存方式。实验表明,该系统在数据吞吐率和可靠性方面测试效果良好。  相似文献   

10.
提出利用Cube中的维层次聚集树(dimension hierarchy aggregate tree,简称DHA-Tree)来对聚集Cube进行增量更新维护,在维层次聚集Cube中进行数据插入和删除等数据更新时,充分利用维层次聚集树中的维层次前缀,由下向上用更新前后的差值对受到更新结点影响的所有祖先结点进行增量更新.在插入新维数据时,在不需要重新构建聚集Cube就可以对聚集Cube进行增量更新,从而减少了Cube的更新时间.对基于维层次聚集树的聚集Cube与传统Cube进行了算法性能分析和比较,结果表明本文所提出的聚集Cube的增量更新算法性能最佳.  相似文献   

11.
增量查询技术由于能有效处理大量、快速、源源不断到达的数据流,因此备受关注。滑动窗口是动态数据流环境下的一种典型的窗口类型。该文研究了基于滑动窗口的数据流聚集查询,提出了一种新的增量聚集查询算法,采用了多种增量计算方法和查询共享技术,实现了多窗口资源共享。实验验证了该方法的有效性。  相似文献   

12.
在连续的数据流上提供查询的应答对很多应用环境来说是一个极为重要的需求。本文主要探索了如何使用有限的内存在数据流上进行聚集SQL查询,以获得近似的结果。使用随机草图技术,计算非常小的数据流草图,以获得泉集查询的近似结果,并保证误差能在一定的范围之内。并讨论了.在草图方法中如何利用已有的直方图统计信息来提高应答的质量。其关键的思想就是对属性域进行智能化的划分,分解草图化问题,确保所获得查询的结果具有合适的近似精度。不论从理论还是实验上都可以证明草图提供的聚集查询结果比传统的直方图更有效、更精确。  相似文献   

13.
流数据的统计是许多决策支持系统的关键所在。研究了流数据的分布特点,定义了评价函数F,设计了一种系统框架,扩展了指数级直方图,提出了松散性指数级直方图及其动态维护算法,基于滑动窗口技术解决了流数据的统计问题。该方案利用o((1/ε)log~2N)比特的空间,解决了流数据最近N个数据中值为l的个数统计问题,并保证相对误差不大于ε。理论和实践表明,F值越大,其优势越明显。  相似文献   

14.
分布式数据流增量聚集   总被引:2,自引:0,他引:2  
分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approximately incremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的.  相似文献   

15.
为了减少分簇的无线传感器网络(WSN)中数据包传输的数量,并使传感器网络的能量效率最大化,提出了一种节能的自适应数据聚合算法.在该算法中,源节点凭借其存储和计算能力,利用数据流技术减少数据包的传输量;当数据从源节点传输到簇头时,簇头根据控制信息选择一组节点作为编码节点,当数据相关性低于某阈值时,该组节点对数据包进行网络编码,若数据相关性高于某阈值,该组节点则会成为聚合节点进行数据聚合,网络编码和数据聚合可以减少簇头冗余流量,提高能量效率.实验结果显示,使用该算法后,数据包交付率有所提高,能量消耗显著减少.  相似文献   

16.
王宏志  李建中  骆吉洲 《软件学报》2008,19(8):2032-2042
XML数据流的特点是所有元素和值仅允许扫描1次.针对XML数据流上的聚集问题,提出了高效的XML数据流聚集算法.这种算法不但能够有效地支持XML数据流上具有复杂结构聚集查询的处理,而且能够有效地支持具有递归结构XML数据流上的聚集查询处理.理论分析和实验结果表明,算法能够有效地处理XML数据流上的聚集查询。并且具有很好的可扩展性.  相似文献   

17.
数据流中一种适应性查询处理机制   总被引:1,自引:0,他引:1  
针对数据流中连续查询特征,本文提出一种适应性的查询处理机制,它不但能在有限时间内最大可能地输出结果元组,也可对有限的元组以最快时限输出。而此查询处理机制主要依托于基于输出速率的代价模型,此模型将不断变化的流速、谓词选择率、操作符处理时间作为代价函数变量,将输出速率作为代价模型的函数值。因此此代价模型可适应环境以及数据流本身不断变化的因素,并可作为查询计划动态选择的标准。实验证明此适应性查询处理机制最终能有效地提高输出速率、增加查询吞吐量、减少时间延迟,降低查询间内存占有量。  相似文献   

18.
通过对数据流的两个相邻窗口的比较,检测出绝对变化较大的元素,以此来描述流数据的变化。把单个窗口中的数据流划分成若干层,在每层上对数据值域进行分段。然后在每层上定义若干分段集合,并对分段集合进行求和运算。通过对两个窗口的概要结构进行合并,采用二分法,利相集合的分解,可以求得变化较大的元素。理论和实验证明,本算法利用对数空间有效地解决了数据流中变化较大元素的检测问题。  相似文献   

19.
王飞  秦小麟  刘亮  沈尧 《计算机科学》2015,42(11):235-239, 265
k-means算法是一种 最常用的基于划分的聚类算法。传统的集中式k-means算法已不能适应当前呈爆炸式增长的数据规模,设计分布式k-means算法成为了目前亟需解决的问题。现有分布式k-means算法基于MapReduce计算框架且没有考虑初始聚类中心的影响。由于每个MapReduce任务均需要读写分布式文件系统,导致MapReduce不能有效表达多个任务之间的依赖关系,因此提出了一种基于数据流的计算框架,该框架建立在MapReduce之上,将数据处理过程按照数据流图建模。在该框架的基础上,提出了一种高效的k-means算法,它采用基于多次采样的初始聚类中心选取方法来实现负载均衡及减少迭代次数。实验结果表明,该算法的可扩展性较好,且效率比现有算法高。  相似文献   

20.
一种基于多时间粒度的数据流建模方法   总被引:2,自引:0,他引:2       下载免费PDF全文
在很多领域中,越来越多的数据以数据流的形式存在于各种应用当中,这些数据的特点是实时的、连续的、时变的、快速的。由于这些特点,在数据处理方法上引入了很多挑战性问题。本文重点从多时间粒度的角度研究了数据流建模问题,提出了多时间粒度的数据流滑窗建模方法,采用层次窗口模型对数据流进行描述,有效解决了Ad-Hoc查询
中的历史数据管理问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号