首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 797 毫秒
1.
Flink流处理系统默认的任务调度策略在一定程度上忽略了集群异构和节点可用资源,导致集群整体负载不均衡。研究分布式节点的实时性能和集群作业环境,根据实际作业环境的异构分布情况,设计结合异构Flink集群的节点优先级调整方法,以基于Ganglia可扩展分布式集群资源监控系统的集群信息为依据,动态调整适应当前作业环境的节点优先级指数。基于此提出Flink节点动态自适应调度策略,通过实时监测节点的异构状况,并在任务执行过程中根据实时作业环境更新节点优先级指数,为系统任务找到最佳的执行节点完成任务分配。实验结果表明,相比于Flink默认的任务调度策略,基于节点优先级调整方法的自适应调度策略在WorldCount基准测试中的运行时间约平均减少6%,可使异构Flink集群在保持集群低延迟的同时,节点资源利用率和任务执行效率更高。  相似文献   

2.
许冬冬  袁凌云  李晶 《计算机科学》2015,42(10):126-131, 153
针对物联网应用系统中存在的时间戳乱序问题,给出了物联网语义事件定义,对时间戳乱序问题进行了描述,同时基于混合驱动的空间回收机制,构建了基于哈希结构的复杂事件乱序修正框架,并提出了一种基于乱序修正框架的复杂事件检测算法(ORFCED)。该算法提取事件的2个特征参数来计算哈希地址,利用时间戳特性将事件存入循环单链表进行局部排序,从而解决了时间戳乱序问题。仿真结果表明,所提出的ORFCED算法不仅具有较高的处理正确率和可靠性,而且可以对乱序流及时地作出反应,弥补了现有方法存在的不足。最后通过案例研究验证了所提算法的有效性和可行性。  相似文献   

3.
基于负载感知的数据流动态负载均衡策略   总被引:1,自引:0,他引:1  
李梓杨  于炯  卞琛  王跃飞  鲁亮 《计算机应用》2017,37(10):2760-2766
针对大数据流式计算平台中存在节点间负载不均衡、节点性能评估不全面的问题,提出基于负载感知算法的动态负载均衡策略,并将算法应用于Flink数据流计算平台中。首先通过有向无环图的深度优先搜索算法获取节点的计算延迟时间作为评估节点性能的依据,并制定负载均衡策略;然后基于数据分块管理策略实现流式数据的节点间负载迁移技术,通过反馈实现全局和局部的负载调优;最后通过实验评估时空代价论证算法的可行性,并讨论重要参数对算法执行效果的影响。经实验验证算法通过优化流式计算任务的负载分配提高了任务的执行效率,与采用Flink平台现有的负载均衡策略相比,任务执行时间平均缩短6.51%。  相似文献   

4.
为了解决滑块窗口的数据流聚类算法中的聚类质量和算法执行效率问题,提出了基于微簇进化学习的数据流快速聚类算法.首先在在现阶段以时间滑块窗口的时间快照窗口周期为时间单位进行数据流粒度快照获取,并进行微簇的实时生成,依据微簇更新机制进行微簇维护;然后在离线阶段对微簇数据信息进行实时获取,利用改进的粒子群算法对数据进行聚类,根据粒子速度进行粒距划分和粒子权重系数的映射与调整,并计算粒子的适应度值;最后迭代地对粒子的局部极值和全局极值进行更新,输出聚类好的类别.实验证明改进算法具有较好的算法执行效率,并且有较优的负载能力.  相似文献   

5.
李梓杨  于炯  卞琛  鲁亮  蒲勇霖 《计算机应用》2018,38(9):2560-2567
针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度策略,并将其应用于Flink数据流计算平台。首先,通过定义有向无环图(DAG)中每条边的容量和流量将其转化为流网络模型,并通过容量检测算法确定每条边的容量值;然后,通过最大流算法计算对应的增进网络和优化路径,从而在输入速率上升阶段提升集群的吞吐量,并通过评估时空代价论证了算法的可行性;最后,讨论了重要参数对算法执行效果的影响,并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出:所提算法与Flink平台现有的任务调度策略相比,在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。  相似文献   

6.
针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题.  相似文献   

7.
《微型机与应用》2020,(2):23-26
为了解决大数据Top N排序问题,将传统的堆排序进行优化,阐述了优化后的Heap Optimize方法的处理过程。Heap Optimize方法基于Flink框架来完成Top N作业,可以实时地接收并处理大量的数据,根据单位时间需要处理的数据数量来调整算子的并行度,增加Flink框架的吞吐量,提高处理数据的速度。通过实验测量的数据结果佐证了Heap Optimize方法的优势。  相似文献   

8.
流数据聚类是数据挖掘研究中一个热点问题.基于Agent方法的流数据聚类算法AGCluStream采用双层结构,在线层采用格簇存储数据信息,利用Agent操作完成对数据的处理,离线层采用了结合时间框架的窗口分析技术.算法鲁棒性高,能够更好地适应流数据的动态特性,维护数据全局分布的完整性,时间开销适应流数据的高速性.  相似文献   

9.
流数据的聚类算法是当前数据挖掘的研究热点之一。本文在分析两层流数据聚类框架的基础上,引入了动微簇、成长簇等概念和FRG思想,提出了Growstream算法,更能反映出流数据的动态特性。  相似文献   

10.
在传统分段式数据流聚类算法中,在线部分中的微簇阈值半径T取值不精确以及离线部分对微聚类的处理相对简单,导致了聚类质量不高.针对这一缺点,在现有动态滑动窗口模型基础上,提出了一种针对离线部分处理的基于人工蜂群优化的数据流聚类算法.该算法包括两部分:(1)在线部分根据数据在窗口内停留的时间长短来动态调整窗口的大小和改进微簇阈值半径T的取值,逐步得到微簇集.(2)离线部分利用改进的蜂群算法不断动态调整来求出最优聚类结果.实验结果证明,本文算法不但有较高的聚类质量,而且有较好的延展性和稳定性.  相似文献   

11.
随着电商平台的快速发展,物流行业增长迅猛,其中物流服务平台的访问日志能够反映用户的行为规律,从而挖掘潜藏信息助力物流服务平台优化业务已至关重要.目前,针对于此类大规模日志数据处理提出了更高的实时性需求,本文综合考量多种实时计算的流处理框架、大规模存储数据库以及日志采集工具等,选取Flume及Kafka作为日志采集工具与消息队列,并利用Flink及HBase进行流数据实时计算以及大规模数据存储.同时,对平台设计了数据去重、异常告警、容错策略以及负载调度的功能.经实验测试证明,本处理平台可以有效处理物流服务平台的日志数据,具有较强的创新思路以及实际价值.  相似文献   

12.
针对当前数据中心网络传输机制缺乏对Online Data-Intensive (OLDI) 应用软实时性和高吞吐量的综合性能保障的问题,本文提出了一种基于动态优先级的数据中心网络时限感知协议LSTCP。该协议采用最小空闲时间优先(Least Slack First,LSF)调度策略对流进行优先级划分,利用ECN机制的反馈,根据流的缓急程度和网络拥塞程度实现拥塞窗口的动态调整,实现对紧急流而非截止期越早的流优先调度。与传统截止时间感知协议相比,减少了短流的平均流完成时间,保证了长流的吞吐量特性。实验结果表明,与L2DCT算法相比,LSTCP降低了17%的流错过时限的比例,流完成时间的99th分位数减少了20%。  相似文献   

13.
针对大数据流式计算平台原生的调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图(directed acyclic graph,DAG),并将每个任务槽(task slot)抽象为节点,为计算节点的性能评估奠定基础;其次,通过建立性能评估模型将有向无环图中带性能权值的节点导入性能评估模型,进行归一化处理得到节点性能的优劣;再将评估参数传入禁忌调度算法(tabu search for schedule,TBS)进行作业路径优化,从而得出最优作业路径;最后,使用Flink平台提供的CustomPatitionerWrapper接口将数据分配到最优作业路径包含的节点中,完成计算负载的均衡分配,从而提升Flink平台的整体性能。实验结果表明:通过禁忌调度算法优化后的负载均衡策略与原生的Flink平台相比,平均计算延迟降低了10~20 ms,资源利用率显著提高,平均吞吐量提升约15%,有效证明了负载均衡策略的有效性和优化效果。  相似文献   

14.
作为新一代的大数据计算引擎,Flink得到了广泛应用。Flink在云环境下进行容器化部署时,其默认任务调度算法不能感知节点的资源信息,导致即时调整负载和自主均衡能力较差,而主流的容器编排工具虽然提供了管理容器的可能性,却也未能结合Flink特点解决平衡资源利用的同时降低容器组内的通信开销问题。针对以上问题开展研究,提出了一种面向云环境的Flink负载均衡策略FLBS,综合考虑了Flink集群中算子的分布特点和容器间通信机制,以节点间通信开销和均衡负载作为评估标准。实验结果表明,与Flink默认调度策略相比,FLBS能够有效提高计算效率,提升系统性能。  相似文献   

15.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。  相似文献   

16.
高维数据流的自适应子空间聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
高维数据流聚类是数据挖掘领域中的研究热点。由于数据流具有数据量大、快速变化、高维性等特点,许多聚类算法不能取得较好的聚类质量。提出了高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义了候选簇,只在相应的子空间内计算新来数据点到候选簇质心的距离,减少了聚类时被检查微簇的数目,将形成的微簇存储在金字塔时间框架中,使用时间衰减函数删除过期的微簇;当数据流量大时,根据监测的系统资源使用情况自动调整界限半径和簇选择因子,从而调节聚类的粒度。实验结果表明,该算法具有良好的聚类质量和快速的数据处理能力。  相似文献   

17.
大规模网络安全监控应用中,决策者应用数据流联机在线分析(Stream OLAP)技术对网络安全事件流建立流数据方(Stream Cube)进行实时分析,以了解当前网络安全状况并动态评估当前网络安全态势。由于内存容量有限,Stream Cube只关注当前时间窗口内的数据,而对于时间窗口外的过期数据则采用近似存储或简单地丢弃,所以不支持超出时间窗口范围的大时间窗口查询。针对以上缺陷,提出一种多维多层安全事件流实时分析框架HS-Stream Cube,采用内存和外存两层混合存储模式实现任意时间窗口的精确查询;然后根据数据流特点重点研究两层混合存储模式下HS-StreamCube的模型、构建、存储管理和查询等;最后通过实验验证该系统的可用性和高效性。  相似文献   

18.
POSE中乐观同步策略研究   总被引:1,自引:0,他引:1       下载免费PDF全文
同步策略是并行离散事件模拟的关键技术之一。POSE是一种面向对象的可扩展的计算机体系结构并行模拟框架,可进行大规模系统的并行模拟。剖析了POSE框架中的乐观同步策略,按照时间窗口调整状况将其自适应策略分为半自适应策略和完全自适应策略;对自适应乐观同步策略的模拟速度与精度进行了深入的测试比较,发现经过调整半自适应乐观策略能够取得更好的性能;也发现现有完全自适应算法中存在窗口调节反馈滞后和GVT计算开销过大等问题,是其乐观策略优化的方向之一。  相似文献   

19.
分布式系统中计算作业流被映射到节点后无法进行动态调整,使关键作业无法及时执行而造成作业间等待。针对该问题,提出一种计算作业流均衡调度算法。算法对映射到分布式节点的作业根据其依赖关系得出阶位值,依据该值在分布式节点上进行动态优先值调整,使关键作业尽早完成,减少作业之间的等待,缩短计算作业流执行时间。实际系统应用表明,该算法对作业管理系统中投入的计算作业流的快速执行有较强优越性。  相似文献   

20.
滑动窗口内进化数据流任意形状聚类算法   总被引:1,自引:0,他引:1  
任意形状聚类是数据流挖掘中的重要研究课题.提出一种滑动窗口内进化数据流任意形状聚类算法SWASCStream.提出了改良的微簇特征结构,能够全面地描述滑动窗口内任意形状的簇;提出新的稀疏微簇、临界微簇和非疏微簇的概念,有助于从本质上提高滑动窗口内的聚类质量;提出了合理的微簇周期删除策略,能够有效降低算法的维护代价,并且保证误差可控.通过一系列真实和人工数据集上的试验,验证了本文算法的高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号