首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
排序合并Join算法的新结果   总被引:4,自引:0,他引:4  
孙文隽  李建中 《软件学报》1999,10(3):264-269
Join操作是数据库中最昂贵和最常用的操作.排序合并Join算法是实现Join操作的重要算法,得到了普遍接受并广为应用.在重新研究了排序合并Join算法后发现,同时对两个Join关系进行外排序是不必要的,会带来很大的额外开销.针对这个问题,提出了一种基于单关系外排序的分治Join算法,并在该算法的基础上提出了基于单关系外排序的并行分治Join算法.理论和实验结果证明,基于单关系排序的分治Join算法高于排序合并Join算法.特别是在并行计算环境下,基于单关系排序的并行分治Join算法的效率远远高于排序合并  相似文献   

2.
现有基于议价博弈的机会网络路由算法存在着因节点交互过程偏多所引起的控制开销过大、对无用消息提出请求时带来了额外开销和博弈双方达成交易概率不高所引起的时延以及SV列表中消息剩余跳数降为1时带来了额外开销等问题,对此提出了一种高效的机会网络路由算法——EORB。该算法通过采用自适应精简数据包摘要、自适应合并SV-DP消息和求购消息、综合考虑买卖双方收益的博弈策略等机制减少了冗余开销,加速了消息的转发速率并提高了消息的到达率。仿真结果表明,该算法有效提高了数据传送到达的成功率,降低了系统开销以及消息的平均端到端时延。  相似文献   

3.
分布式不确定数据上的概率Skyline计算   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了分布式不确定数据上概率skyline的低通信开销算法。首先给出了一种间接的对象分布信息——剪枝空间,分布节点通过共享全局剪枝空间,能够减少通信开销。为了降低传输剪枝空间带来的额外通信开销,对表示剪枝空间的虚拟对象集合进行基于距离的压缩。与基本算法相比,100个分布节点时,在真实数据集上节省了69%的通信开销;在均匀、正相关、反相关三种标准模拟数据上分别节省60.5%、41.8%、24.5%的通信开销。  相似文献   

4.
一种有效的并行数据库动态负载平衡连接算法   总被引:1,自引:0,他引:1  
在基于Shared-nothing结构的并行数据库中,负载平衡一直是影响查询处理性能的重要因素。在数据库中频繁使用的连接操作会因为各种因素导致的负载倾斜和额外的通讯开销而降低数据库的整体性能。提出了一种基于RCMD分布方法的动态负载平衡连接算法,能够在连接操作的执行过程中动态调整各个结点的负载。理论分析和实验结果证明提出的算法能够有效地平衡负载,提高并行数据库的执行效率。  相似文献   

5.
6.
随着数据量的快速增长、数据存储的分散化程度不断提高,对并行分布式数据挖掘算法的需求越来越迫切.文章提出了一种基于垂直FP树的分布式频繁项集挖掘算法DVFP.DVFP采用一种称为垂直FP树(VFP)的格式来存放数据,并同时采用数据并行和任务并行的策略.文章还提出了一种新的序列化方法来对VFP树进行编码,大大减少了处理节点间的通信开销.实验验证DVFP算法在灵活性和处理时间上与现有的分布式算法相比具有较大优势.  相似文献   

7.
王春凯  孟小峰 《软件学报》2018,29(3):869-882
并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销。相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源。基于完全二部图的连接模型可支持分布式数据流的连接操作。因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单元相互独立,因此该模型具有内存高效、易伸缩和可扩展等特性。然而,由于数据流速的不稳定性和属性值分布的不均衡性,导致倾斜数据流的连接操作易出现集群负载不均衡的现象。针对倾斜数据流的连接操作,模型无法动态分配查询节点,并需要人工干预数据分组的参数设置。尤其是应对全部历史数据的连接查询,模型效率更低。基于上述问题,提出了管理倾斜数据流连接的框架,使用基于键值和元组混合的划分样式有效应对二部图模型的各侧倾斜数据。并设计了重新动态分配查询节点的策略和状态迁移算法,以支持全历史数据的连接查询和自适应的资源管理。针对合成数据和真实数据的实验表明,该方案可有效应对倾斜数据的连接操作并进一步提升分布式数据流管理系统的吞吐率,特别是降低云环境中的计算成本。  相似文献   

8.
随着大数据时代的到来,应用数据量剧增,个性化推荐技术日趋重要。传统的推荐技术直接应用于大数据环境时会面临推荐精度低、推荐时延长以及网络开销大等问题,导致推荐性能急剧下降。针对上述问题,提出用户共现矩阵乘子推荐策略,将用户相似度矩阵与项目评分矩阵相乘得到用户对项目的预测评分矩阵,从而生成对每个用户的候选推荐项目集;在此基础上,根据分布式处理架构的特点对传统协同过滤算法进行并行化扩展,设计了基于用户的分布式协同过滤算法;最后通过重定义序列组合的MapReduce模式将多个子任务串联起来,自动地完成顺序化的执行。实验结果表明,该算法在分布式计算环境下具有良好的推荐精度和推荐效率。  相似文献   

9.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

10.
孙翀  卢炎生 《计算机科学》2012,39(3):170-173
频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优化策略。优化后的设计将计数信息存储在分布式协调系统上,充分地利用了分布式协调系统的高可用性、适宜存储元数据信息的特点。该设计减小了小文件在分布式文件系统(HDFS)上的开销,同时保留了其优点,还能使计数过程和排序过程并行执行,减小了计算节点的内存开销。对比了文件系统I/O的开销,并分析了实现设计中的难点,为未来的工作打下了基础。  相似文献   

11.
A query processing strategy which is based on pipelining and data-flow techniques is presented. Timing equations are developed for calculating the performance of four join algorithms: nested block, hash, sort-merge, and pipelined sort-merge. They are used to execute the join operation in a query in distributed fashion and in pipelined fashion. Based on these equations and similar sets of equations developed for other relational algebraic operations, the performance of query execution was evaluated using the different join algorithms. The effects of varying the values of processing time, I/O time, communication time, buffer size, and join selectively on the performance of the pipelined join algorithms are investigated. The results are compared to the results obtained by employing the same algorithms for executing queries using the distributed processing approach which does not exploit the vertical concurrency of the pipelining approach. These results establish the benefits of pipelining  相似文献   

12.
Collecting statistics is a time- and resourceconsuming operation in database systems. It is even more challenging to efficiently collect statistics without affecting system performance, meanwhile keeping correctness in distributed database. Traditional strategies usually consider one dimension during collecting statistics, which is lack of adaptiveness. In this paper, we propose an adaptive strategy for statistics collecting(ASC), which well balances collecting efficiency, correctness of statistics and effect to system performance. We formally define the procedure of collecting statistics and abstract the relationships among collecting efficiency, correctness of statistics and effect to system performance, and introduce an elastic structure(ESI) storing necessary information generated during proceeding our strategy. ASC can pick appropriate time to trigger collecting action and filter unnecessary tasks, meanwhile reasonably allocating collecting tasks to appropriate executing locations with right executing models through the information stored at ESI. We implement and evaluate our strategy in a distributed database. Experiments show that our solutions generally improve the efficiency and correctness of collecting statistics, moreover, reduce the negative effect to system performance comparing with other strategies.  相似文献   

13.
Sensor networks are widely used in many applications to collaboratively collect information from the physical environment. In these applications,the exploration of the relationship and linkage of sensing data within multiple regions can be naturally expressed by joining tuples in these regions. However,the highly distributed and resource-constraint nature of the network makes join a challenging query. In this paper,we address the problem of processing join query among different regions progressively and energy-efficiently in sensor networks. The proposed algorithm PEJA(Progressive Energy-efficient Join Algorithm) adopts an event-driven strategy to output the joining results as soon as possible,and alleviates the storage shortage problem in the in-network nodes. It also installs filters in the joining regions to prune unmatchable tuples in the early processing phase,saving lots of unnecessary transmissions. Extensive experiments on both synthetic and real world data sets indicate that the PEJA scheme outperforms other join algorithms,and it is effective in reducing the number of transmissions and the delay of query results during the join processing.  相似文献   

14.
一种高效的P2P环境中的窗口查询算法   总被引:1,自引:0,他引:1  
随着多媒体以及P2P网络的发展,针对高维数据基于属性的窗口查询已经成为一个重要研究课题.提出了一种在超级节点P2P网络中有效解决高维数据的窗口查询算法,在每个单独的网络节点上,数据通过一种降维算法映射到一维空间,在超级节点上,构造数据的统计信息表以及构造网络查询树,算法在每次查询时,按照查询树的规则来访问整个网络,并利用统计信息剪枝网络中的节点查询,避免网络的泛洪.实验中使用了不同的数据集来评测算法的查询效率,结果表明该算法具有很高的查询效率.  相似文献   

15.
丁祥武  李子通 《计算机科学》2016,43(11):265-271, 308
集成多核CPU-GPU架构已经成为计算机处理器芯片的发展方向。利用这种架构的并行计算能力进行数据处理已经成为了数据库领域的研究热点。为了提高列存储系统的查询性能,首先改进了已有协处理机制中的负载分配策略,通过监测数据库系统CPU占用率,动态地为处理器提供合理的数据划分;然后,针对集成多核CPU-GPU架构上的数据预取机制,提出了一种确定预取数据大小的模型,同时,针对GPU访存的特点,进行了GPU访存优化;最后,使用OpenCL作为编程语言,实现了一种集成多核CPU-GPU架构上的列存储排序归并连接算法,并采用提出的方法对连接处理进行优化。实验证明,所提优化策略可以使列存储系统排序归并连接性能提升33%。  相似文献   

16.
多元连接查询的并行执行   总被引:1,自引:0,他引:1  
文中首先分析了传统的并行查询处理算法,然后针对面向对象数据库及其查询的特点,结合查询处理的分阶段执行策略,基于对象类的混合式数据放置策略和基于合格标记的数据操作并行执行算法,提出了基于semijoin的并行查询处理算法,对算法的正确性进行了证明,并给出了性能评价的结果。  相似文献   

17.
Proposes a new measure of fuzzy equality (FE) comparison based on the similarity of possibility distributions. We define a type of fuzzy equi-join based on the new FE comparison and allow threshold values to be associated with predicates of the join condition. A sort-merge join algorithm based on a partial order of intervals is used to evaluate the fuzzy equi-join. In order for the evaluation to be efficient, we identify various mappings, called FE indicators, that determine appropriate intervals for fuzzy data with different characteristics. Experimental results from our preliminary simulation of the algorithm show a significant improvement of efficiency when FE indicators are used with the sort-merge join algorithm  相似文献   

18.
随着纠删码在分布式存储系统中的实际应用,纠删码为存储系统提供了更加优秀的存储效率,但当节点丢失时,相较于传统副本技术更多的网络传输带宽开销成为了造成系统性能瓶颈的关键因素。为了解决MDS编码高带宽开销对系统性能的影响,一类新型编码方案——分组码被应用在分布式存储系统中,相较于传统MDS编码能够有效地降低节点修复时的数据传输量,从而减少网络带宽需求。在Pyramid分组码的基础上进行层次扩展,提出一种HLRC(hierarchical local repair codes)纠删码。HLRC相较于LRC引入了层次编码模型,将原始数据块构建为编码矩阵,根据层次进行分别编码,生成包含数据块范围不同的局部校验块;每个层次包含的数据块数量不同,可以保证修复节点时的低修复成本,同时还拥有较高的存储效率。HLRC相较于Pyramid拥有额外的校验块冗余,能够降低校验块出错和多节点出错时的恢复开销。在基于Ceph的分布式存储系统中的实验结果表明,HLRC与Pyramid等分组码相比,单节点修复开销最高可降低48.56%,多节点修复开销最高可降低25%。  相似文献   

19.
基于数据网格环境的连接操作算法   总被引:5,自引:1,他引:5  
数据网格是一种分布式数据管理体系结构,能够为分布在网格中的资源提供协同的管理机制.数据库管理系统在数据网格中发挥着重要作用,在各种数据库操作中,连接操作是一种最常用也是最耗时的操作,到目前为止,尚未有文献提出数据网格环境下的连接操作算法.主要对数据网格环境下海量数据的连接操作算法进行了研究,针对网格中各结点之间网络带宽异构的特点,采取关系缩减算法、行分块传输技术和流水线并行机制来减少查询的响应时间.理论分析和实验结果证明,算法在减少网络通信开销、增加I/0和CPU并行、降低响应时间方面具有较好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号