首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 628 毫秒
1.
连接操作是最昂贵且常用的数据库操作.在传统数据库系统中,主要的连接操作是等值连接操作,因此,传统的并行连接算法主要集中于并行等值连接操作.另外,随着XML在Web应用中变得越来越重要,XML已经成为Internet上一种新的数据交换标准.对XML数据的连接操作不同于传统数据库中的等值连接操作,它属于结构连接操作.以前适合等值连接操作的并行连接算法并不能有效地解决结构连接问题.因此,第1次提出了并行结构连接问题,并且通过应用直方图的思想于并行连接中,从而提出两种基本的并行XML结构连接算法、等高直方图连接算法和等宽直方图连接算法.实验表明这两种算法具有较好的性能.  相似文献   

2.
AnyQuery是一种适用于网格环境、基于服务的分布式查询处理系统,使用统一的数据格式(可扩展标记语言)来表示和传输数据,所有组成模块以网格服务的形式实现,网格服务之间通过标准的接口进行通信.这种接口和实现分离技术屏蔽了不同数据库及其运行节点的差异,为用户提供一致的虚拟关系数据视图和分布式数据查询支持.在分析和研究已有的并行数据库和分布式数据库查询技术的基础上,AnyQuery提出和实现了一种适用于动态网格环境的分布式查询计划生成和执行算法,该算法能够根据网格环境中各节点及其连接网络的实际情况确定查询计划,支持跨数据库的连接查询.基于Globus 3.0开发了AnyQuery的原型系统,性能测试表明该系统具有较好的可扩展性,尤其适合计算密集型的复杂查询.  相似文献   

3.
网格环境下各个节点固有的高度异构性和节点之间差异甚大的通信速率,给数据库的查询操作带来了新的问题。针对这种情况,本文提出一种对数据库查询树的分配算法,使查询并行化,缩短查询的响应时间。  相似文献   

4.
随着网格计算技术的快速发展,其应用领域在不断扩大,然而,跨网络分布式数据的联合查询往往成为性能的瓶颈,因此文中从提高分布式数据的联合查询的效率出发,以网格计算这一新型web体系结构为技术平台,研究基于网格服务的查询优化目标、查询优化对象和查询优化策略。文中采用了应用非常广泛的启发式搜索算法来缩小策略空间这一优化策略,并在该策略的基础上提出了一种基于网格服务的2-way半连接查询优化算法,最后在网格计算环境下对该算法与一般的全连接算法做了实验对比,证明基于网格服务的2-way半连接查询优化算法可大大缩短查询响应时间。  相似文献   

5.
分布式数据库中基于半连接的查询优化算法研究   总被引:2,自引:0,他引:2  
首先阐述了分布式查询优化的主要目标,介绍了半连接算法和基于半连接的二分劈开缩减算法,分析了两者的特点和不足并在其基础上提出了一种新的优化算法——两次半连接对接算法。通过进行两次半连接减少了通信信息量,并且利用多结点的并行性处理提高了查询的响应时间和处理速度。通过对三种算法的比较对新算法的性能进行了分析,结果表明,该算法在某些特定的环境下确实具有较高的处理速度、节点利用率和实际可行性,适合大规模的数据库查询。  相似文献   

6.
随着网格从科学计算转到企业级应用,要求数据库提供多种服务支持以实现更强更丰富的资源共享和应用。网格上的数据库只能通过网格服务进行访问,而数据库中的数据也只能通过网格服务接口来存取。因此如何在网格环境下直接对分布在各地的数据库进行高效的检索就是迫切要解决的问题。本文首先提出了一个网格环境下数据检索的体系结构,然后针对该结构下的数值型数据的Top-k查询问题给出了GrangM算法,它有效解决了来自不同数据源查询结果的合并问题。对该算法的模拟实现表明,它可以快速、高效地合并网格中多结点检索出的结果,减少连接中间结果的大小,降低发送查询请求的通信量。  相似文献   

7.
网格环境由于其可扩展性、异构性以及大量的传输延迟,使得网格环境下的负载均衡不同于传统的分布式系统。提出了一种动态的分布式负载均衡算法,该算法综合考虑网格站点的处理能力和站点之间的传输延迟,采用即时分配策略来降低作业的执行成本,目标是使系统平均作业响应时间最小化。仿真结果显示该算法显著减少了作业的平均响应时间。  相似文献   

8.
网格数据库技术已经成为网格计算领域的一个研究热点。网格数据库是对现有数据库的网格化,以达到对数据资源的访问更加透明、高效、可靠。移动Agent是融合了人工智能技术的一种新型分布式计算模式。网格数据库服务是连接现有数据库和网格应用的桥梁。文章针对网格数据库所面临的主要问题,在网格数据库的数据处理中引入移动Agent技术,提出了一种网格环境下基于移动Agent的服务模型,并介绍了该模型下的事务处理流程。  相似文献   

9.
伴随网格技术的日益发展,作为对数据应用需求的快速回应,在数据网格之后又出现了网格数据库的概念,其中查询又是数据库应用中一个使用频繁的核心功能,由于每个节点上的数据库可能只包含所需信息的一部分,而且查询操作还涉及到数据库异构性、通信开销等问题,这些都给网格环境下的数据库查询性能带来了新的困难。为了提高网格环境下数据库查询的性能,提出了一种运用协同(CSCW)机制来协调网格用户的查询操作的方法,这不仅体现了系统的协同性,而且降低了数据传输开销,还提高了查询效率。  相似文献   

10.
基于列存储的MapReduce并行连接算法   总被引:1,自引:0,他引:1  
针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化。使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法。实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性。  相似文献   

11.
This paper addresses the problem of parallel dynamic security assessment applications from static homogeneous cluster environment to dynamic heterogeneous grid environment. Functional parallelism and data parallelism are supported by each of the message passing interface model and TCP/IP model. To consider the differences in heterogeneous computing resources and complexity of large-scale power system communities, a kernel-based multilevel algorithm is proposed for network partitioning. Since the bottleneck in distributed computation is low speed network communication, a bi-level latency exploitation technique is introduced for numerically solving system differential equations. The proposed grid-based implementation includes the core simulation engine, grid computing middleware, a Python interface and Python front-end utilities. Tests for a 39-bus network, a 4000-bus network and a 10,000-bus network are reported, and the results of these experiments demonstrate that the proposed scheme is able to execute the distributed simulations on computational grid infrastructure and provide efficient parallelism.  相似文献   

12.
提出一种在网格环境下的k近邻查询方法——GkNN.到目前为止,尚未有文献提出数据网格环境下的k近邻查询算法.当用户在查询节点提交一个查询向量和k,首先以一个较小的查询半径。在数据节点进行基于双重距离尺度的向量缩减,然后将缩减后的向量按照向量“打包”传输的方式发送到执行节点,在执行节点并行地对这些候选向量进行距离(求精)运算.最终将结果向量返回到查询节点.当返回的向量个数小于k时,扩大半径值,继续循环直到得到k个最近邻向量为止.理论分析和实验证明该方法在减少网络通信开销、增加I/O和CPU并行、降低-向应时间方面具有较好的性能,非常适合海量高维数据的查询.  相似文献   

13.
并行参数优化算法在科学计算中有广泛应用。随着Spark等分布式平台的快速发展,越来越多并行参数优化算法开始采用分布式平台进行实现。如何在Spark等平台上设计优化算法,避免其运行效率受到框架固定时间开销和网络I/O影响,已经成为亟需解决的问题。本文设计一种分布式与单机多核并行结合的参数优化算法,将其划分为调度部分和独立子问题部分,单机多核并行算法处理子问题,分布式平台负责子问题的跨节点并行。碳通量模型参数优化的实验结果表明,改进的算法能有效节省时间开销,更快地搜索参数空间。  相似文献   

14.
Wei  Xing  Hu  Huiqi  Duan  Huichao  Qian  Weining  Zhou  Aoying 《World Wide Web》2019,22(6):2561-2587

To support the large-scale analytic for Web applications, the backend distributed data management system must provide the service for accessing massive data. Thus, the scan operation becomes a critical step. To improve the performance of scan operation, modern data management systems usually rely on the simple partitioned parallelism. Under the partitioned parallelism, tables are consist of several partitions, and each scan operation can access multiple partitions separately. It is a simple and effective solution for a single scan operation. In this paper, we consider managing multiple scan operations together, where the situation is no longer straightforward. To address the problem, we propose the parallel strategy to schedule batched scan operations together beyond the simple partitioned parallelism. For the sake of performance, first, we utilize replications to increase the parallelism and propose an effective load balancing strategy over replication nodes based on linear programming. Second, we propose an effective chunk-based scheduling algorithm for multi-threading parallelism on each node to guarantee all threads have even workloads under a qualified cost model. Finally, we integrate our parallel scan strategy into an open-sourced distributed data management system. Experimental evaluation shows our parallel scan strategy significantly improves the performance of scan operation.

  相似文献   

15.
高锦涛  李战怀  杜洪涛  刘文洁 《软件学报》2019,30(11):3364-3381
排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.  相似文献   

16.
针对移动网格的特点提出基于超级节点的覆盖网络模型,对节点聚集问题进行形式化描述。提出的聚集算法以分布式网络坐标系统为基础,由查找聚集、建立新聚集和超级节点连接三部分组成。节点在加入移动网格时首先要寻找最近距离的聚集加入,在网络规模较小时采用简单的禁忌搜索算法来寻找归属聚集,而在网络规模较大时采用改进的粒子群算法寻找归属聚集。在加入聚集时考虑节点间距离和节点容量参数,从而能够满足应用相关的延时要求并实现良好的负载平衡。算法体现了分布式、自适应、轻量级的特点。仿真实验分析了不同参数对算法性能的影响。  相似文献   

17.
连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash连接算法。该算法通过多层划分的策略大大降低了主存访问次数,通过分区重排方法有效消除了数据倾斜的影响,获得了很高的性能。在异构融合阵列众核处理器DFMC(Deeply-Fused Many Core)原型系统上的实验结果表明,DFMC上多层分区Hash连接算法的性能是CPU-GPU耦合结构上最快的连接算法的8.0倍,表明利用阵列众核处理器加速数据查询应用具有优势。  相似文献   

18.
For the materialized views in the fast LAN or computing grid environment, it is a very important problem that how to refresh them efficiently when data sources have changed. In this paper, we take the update frequencies and the size of source relations into account and present a partition strategy and an efficient algorithm by creating auxiliary views. Our algorithm may decrease the cost of join operation and communication on network as low aspossible.  相似文献   

19.
宋杰  李甜甜  朱志良  鲍玉斌  于戈 《软件学报》2015,26(6):1438-1456
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接查询代价评估和查询优化,有着学术意义和应用价值.MapReduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于MapReduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣.  相似文献   

20.
数据分发管理(DDM)是降低网络冗余数据的有效手段,区域匹配算法又是数据分发管理实现的关键。当前的多种匹配算法如直接匹配法、网格法、排序法等效率都不够理想,或者过滤效果不佳,或者耗时较长。通过对数据过滤机制的深入研究,提出了基于区间树的区域匹配算法——ITBM算法,该算法将范围的上下界映射到一个区间内,使用区间树来存储区域范围,通过对区间树的直接操作来完成匹配工作。结果表明,ITBM算法大大减少了匹配计算的时间,有效地减少了动态DDM的维护开销。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号