共查询到20条相似文献,搜索用时 154 毫秒
1.
在数据流管理系统中,流数据的高到达速率和进发性等特点会引起系统过载,为此人们提出了各种卸载技术来缓解过载问题.目前几乎所有的卸载技术都使用随机丢弃数据的方法,由于随机丢弃数据策略对数据丢弃过程没有任何控制,这对某些考虑实时约束的数据流管理系统是不适合的.本文认为更为精确的卸载模型,比如文中使用的(m,k)截止期模型,更适合于一类重要的实时数据流事件检测应用.基于(m,k)截止期模型,提出一种新的策略SOSA,该策略一方面提供了可证明的卸载能力,同时也保证了系统的时间约束.为验证SOSA的有效性,设计了一种新的数据流调度算法SOSA-DBP.理论分析与模拟实验证明了SOSA-DBP比现有的算法有更好的性能. 相似文献
2.
随着数据流应用系统的快速发展,数据流管理系统对数据库技术提出了巨大挑战.针对数据流上的滑动窗口连接操作,提出一些新的卸载技术,使得系统在过载的情况下卸栽连接结果少的元组,从而最大化输出结果.双窗口模型和辅助窗口统计信息的建立保证了预估连接结果的可靠性,同时应用线段树使卸载的判断更加高效.当流速过快、系统处理能力无法与之同步时,通过前端卸载和后端卸载的配合使用达到理想的语义卸载,得到最大子集的连接结果.实验验证该卸载策略的性能好于现有其他方法. 相似文献
3.
4.
二、结构化设计技术结构化设计技术是以数据流图为基础设计系统的模块结构。我们从表达“需求分析”的数据流图找出一些简单的规律,从而便于导出初始的模块结构。先讨论一下数据流图的类型。1.数据流图的类型具有较明确的输入、变换(或称主加工)和输出界面的数据流图称为变换型数据流图。这类数据流图可以明显地分成输入、主加工和输出三个部分。如图9所示。在变换型数据流图中,主加工是系统的中心工作,主加工的输入数据流“合格的汇款单”是系统的“逻辑输入”;主加工的输出数据流“核准后的汇款单”是系 相似文献
5.
实时数据流管理技术研究 总被引:4,自引:0,他引:4
数据流技术是一种正在兴起的新型数据管理技术,在传感器网络、实时监控、实时监测分析等众多关键任务领域具有广泛的用途。本文讨论了实时数据流的特点和关键技术,综述了三个典型数据流系统,介绍了RealStream数据流管理系统的设计思想。 相似文献
6.
7.
8.
9.
大数据环境下的分布式数据流处理关键技术探析 总被引:1,自引:0,他引:1
大数据环境下的数据流处理实时性要求高,数据计算要求持续性和高可靠性。分布式数据流处理系统(DDSPS)能解决大数据环境下的数据流处理问题,它除具备分布式系统的可扩展性和容错性优势外,还具有高的实时处理能力。详细介绍了组成基于大数据的分布式数据流处理系统的四个子系统及其关键技术,讨论和比较了各个子系统的不同技术方案;同时介绍一种分布式拒绝服务(DDoS)攻击检测数据流处理系统结构案例,其研究内容能为大数据环境下的数据流处理理论研究和应用技术开发提供技术参考。 相似文献
10.
11.
连接运算在数据流系统中扮演了关键角色,其执行方式与传统DBMS的连接运算不同,流连接降载策略与传统的网络降载也不相同,已开发许多连接降载策略。论文在介绍流连接运算、数据流及数据流系统的模型后,对连接降载时的系统约束、输出质量目标进行了正式阐述。提出连接降载策略的分类方法,并着重分析了目前一些较为重要的连接降载策略,指出其特征和应用范围。最后总结了好的连接降载策略应具有的特点及未来研究的发展趋势。 相似文献
12.
13.
14.
滑动窗口聚集查询在数据流管理系统中应用广泛,数据流到达高峰期,必须考虑滑动窗口聚集查询中出现的降载问题。分析了子集模型的特点和已有降载策略的不足,给出了数据流滑动窗口聚集查询降载问题的约束条件,提出了能保证子集结果产生的基于丢弃窗口更新策略的降载算法。理论分析和实验结果表明,该算法对数据流滑动窗口聚集查询降载问题的处理具有较高的有效性和实用性。 相似文献
15.
在过载环境下不是很高的降载比率很可能要丢失要分析的全部信息,故有效地获取流数据的信息是流数据挖掘的关键问题.本文建立基于AR* -GRNN的QoS降载管理框架,提高过载环境下流数据的相似性查询效率.利用离散傅立叶变换(Discrete Fourier Transform,DFT)来获取数据的特征值,运用混合预测模型(时间序列类模型(AR*)-Generalized RegressionNeural Network,AR* -GRNN)和历史的特征值来预测降载部分数据的特征值,建立自适应的降载计划,从而完成降载发生情况下的相似性查询分析. 相似文献
16.
Tae-Hyung Kwon Ki Yong Lee Myoung Ho Kim 《Journal of Intelligent Information Systems》2011,37(2):245-265
We address the problem of load shedding for continuous multi-way join queries over multiple data streams. When the arrival rates of tuples from data streams exceed the system capacity, a load shedding algorithm drops some subset of input tuples to avoid system overloads. To decide which tuples to drop among the input tuples, most existing load shedding algorithms determine the priority of each input tuple based on the frequency or some historical statistics of its join attribute value, and then drop tuples with the lowest priority. However, those value-based algorithms cannot determine the priorities of tuples properly in environments where join attribute values are unique and each join attribute value occurs at most once in each data stream. In this paper, we propose a load shedding algorithm specifically designed for such environments. The proposed load shedding algorithm determines the priority of each tuple based on the order of streams in which its join attribute value appears, rather than its join attribute value itself. Consequently, the priorities of tuples can be determined effectively in environments where join attribute values are unique and do not repeat. The experimental results show that the proposed algorithm outperforms the existing algorithms in such environments in terms of effectiveness and efficiency. 相似文献
17.
流数据产生速率具有不可预见性,当其速率超过系统处理能力时,部分数据元素不能被实时处理。降载技术是处理此问题的关键技术之一。分析了目前降载技术的不足,提出了一种面向挖掘流数据频繁项集的降载策略。该策略采用了基于元组出现频率的语义删除策略,优先删除出现频率相对较低的元组,从而有效解决了在挖掘流数据中的频繁项所遇到系统超载时所出现的问题,同时采用了根据流数据产生速率自动地控制是否启动降载策略,有效地解决了降载的适应性问题。最后,通过实验和分析,证明了该策略在流数据频繁项挖掘中有效性。 相似文献
18.
流式数据处理中,数据倾斜等原因易导致计算节点的负载不均衡,降低系统处理能力。传统的负载均衡方法,比如算子分配、算子迁移和负载脱落等技术因为相对较高的性能代价,在流式处理系统中没有得到广泛的应用。针对流式处理系统的特点,提出一种新的负载均衡方法。在该方法中,计算单元的数据被划分为若干分区,并且数据分区可以在计算单元中动态分配和迁移,在较少干扰系统运行的情况下,通过动态调整各计算单元的分区,平衡各个计算单元的输入流和利用率,以此达到负载平衡的目的。在此基础上,设计并实现了流式处理系统的负载均衡算法和数据在线迁移技术。实验结果表明,该方法能够显著减少数据处理的平均延迟,提高系统吞吐量。 相似文献
19.
20.
Thao N. Pham Panos K. Chrysanthis Alexandros Labrinidis 《The VLDB Journal The International Journal on Very Large Data Bases》2016,25(2):197-221
Data stream management systems (DSMSs) offer the most effective solution for processing data streams by efficiently executing continuous queries (CQs) over the incoming data. CQs inherently have different levels of criticality and hence different levels of expected quality of service (QoS) and quality of data (QoD). Adhering to such expected QoS/QoD metrics is even more important in cases of multi-tenant data stream management services. In this work, we propose DILoS, a framework that, through priority-based scheduling and load shedding, supports differentiated QoS and QoD for multiple classes of CQs. Unlike existing works that consider scheduling and load shedding separately, DILoS is a novel unified framework that exploits the synergy between scheduling and load shedding. We also propose ALoMa, a general, adaptive load manager that DILoS is built upon. By its design, ALoMa performs better than the state-of-the-art alternatives in three dimensions: (1) it automatically tunes the headroom factor, (2) it honors the delay target, (3) it is applicable to complex query networks with shared operators. We implemented DILoS and ALoMa in our real DSMS prototype system (AQSIOS) and evaluate their performance for a variety of real and synthetic workloads. Our experimental evaluation of ALoMa verified its clear superiority over the state-of-the-art approaches. Our experimental evaluation of the DILoS framework showed that it (a) allows the scheduler and load shedder to consistently honor CQs’ priorities, (b) significantly increases system capacity utilization by exploiting batch processing, and (c) enables operator sharing among query classes of different priorities while avoiding priority inversion, i.e., a lower-priority class never blocks a higher-priority one. 相似文献