首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于Greenplum数据库的查询优化   总被引:1,自引:0,他引:1  
邹承明  谢义  吴佩 《计算机应用》2018,38(2):478-482
针对分布式数据库查询效率随着数据规模的增大而降低的问题,以Greenplum分布式数据库为研究对象,从优化查询路径的角度提出一个基于代价的最优查询计划生成方法。首先,该方法设计一种有效的代价模型来估算查询代价;然后,采用并行最大最小蚁群算法来搜索具有最小查询代价的连接顺序,即最优连接顺序;最后,根据Greenplum数据库对查询计划中不同操作的默认最优选择得到最优查询计划。采用该方法在自主生成的数据集与事务处理性能理事会测试基准(TPC-H)的标准数据集上进行了多组实验。实验结果表明,所提出的优化方法能有效地搜索出最优解,获得最优的查询计划,从而提升Greenplum数据库的查询效率。  相似文献   

2.
传统的关系数据库系统(RDBMS)是以查询操作中发生的内存与磁盘交换数据的块数(即I/O)为基础进行查询优化的,然而传统代价模型及查询优化方法并不适合包含高代价谓词的查询.学术界提出了一些优化方法,一定程度上解决了高代价谓词查询的优化问题,但这些方法存在优化空间加大、优化程度有限等问题.以具有视频监控的大型超市数据管理为背景,针对包含视频数据及视频处理的混合查询,以操作结果缓存的方式执行高代价谓词,提出属性势值估算以及基于属性势值估算的查询优化方法.这种优化方法更大程度地降低高代价谓词的执行次数,很好地解决了包含传统数据类型和大对象操作的混合查询的代价优化问题.将这种方法与以往高代价谓词的查询优化方法进行性能比较,结果令人满意.  相似文献   

3.
在收益半连接的研究基础上,对查询执行代价模型进行研究,提出一种包括数据副本选择、多连接查询次序、操作站点选择、数据传输及局部数据处理等因素的代价模型,能准确地描述当前分布式数据库查询执行计划的代价,更具有实际意义。  相似文献   

4.
目前的关系数据库代价模型及查询优化算法无法处理保存在第三级存储器中的海量数据.提出了估算第三级关系代数操作的代价模型,通过定义若干基本数据访问模式及两种模式合成方法的代价,导出关系代数操作的代价.提出了针对第三级存储器的查询优化方法,该方法不仅可以选择最高效的关系代数操作实现算法,而且可以选择I/O代价最小的关系副本,从而提高查询效率.实验结果表明,应用提出的代价模型及查询优化方法后可以显著地提高第三级存储器上数据的查询效率.关系副本的引入充分证明了用存储空间换取查询执行时间的策略的可行性.  相似文献   

5.
直方图是一种重要的数据查询工具.在数据库操作中查询操作需要进行代价估计,而操作代价的估计有多种方法.直方图估计法在所有估计法中是最容易使用和最容易维护的,它将关系中的全部元组进行归类设桶,对每个桶分别进行大小统计,继而求和,使代价统计值更接近于真实.结合实际课题应用,给出了将关系的连接转换为多种直方图的方法,以及如何利用直方图进行代价估计.  相似文献   

6.
在MapReduce与数据库的混合架构中,数据划分是影响查询性能的重要因素。对于开销最大的连接和聚集操作,采用混合MapReduce的方式实现,需要大规模数据的跨结点传输,网络传输和I/O开销巨大。为了减少传输的数据量,并提高连接操作的查询效率,提出了划分建议器模型。实现了MapReduce和数据库混合架构上的划分建议器,并计算划分代价,生成最优的数据划分方案,提高了系统效率。为了减少查询时间,依据划分建议器模型,提出了基于代价优先的生成策略和空间搜索算法,减少了划分建议器生成最优方案的时间。通过实验验证了划分建议器的有效性,使系统的整体查询代价最小,显著提高了系统性能。  相似文献   

7.
黄寿孟 《计算机科学》2016,43(Z11):529-531
随着XML数据库技术研究的深入,关于XML查询优化的研究日益增多,但至今其仍是XML数据库的薄弱环节。从传统的查询估算模型中找出原子操作,在物理优化时通过分析估算操作,采用基于统计学习的方法找出操作代价和这些影响因素之间的函数关系,从而建立起基于代价的操作模型。  相似文献   

8.
本文在收益半连接的研究基础上,对查询执行代价模型进行研究,提出一种包括数据副本选择、多连接查询次序、操作站点选择、数据传输及局部数据处理等因素的代价模型,能准确地描述当前分布式数据库查询执行计划的代价,更具有实际意义.  相似文献   

9.
关系数据库中连接操作的代价   总被引:1,自引:0,他引:1  
数据库查询中,连接操作的性能在很大程序上影响了查询操作的效率,本章从循环嵌套连接、排序合并连接和散列连接等几个方面研究了连接操作的代价。  相似文献   

10.
基于遗传算法的分布式数据库查询优化研究   总被引:2,自引:0,他引:2  
在收益半连接研究基础之上,本文提出一种新的查询执行计划代价模型,它包括关系副本选择、查询多连接次序、操作站点的选择、数据的传输及数据局部处理等因素,准确地表示了分布式数据库查询执行代价,并且给出了解决基于此代价模型查询优化问题的遗传算法,实验结果表明,该算法有较好的寻优效果,更具有实际意义.  相似文献   

11.
面向对象数据库中查询代价的估算   总被引:4,自引:0,他引:4  
好的查询优化器都是基于代价的,因此查询代价的估算是数据库查询优化中一项不可缺少的工作。文中在联系代数的基础上,综合考虑了对象聚集,索引等因素,给出了面向对象数据库中查询代价的一种估算方法。  相似文献   

12.
吴燕萍  施润身 《软件学报》2000,11(10):1412-1419
提出支持面向对象查询物理优化的二维字典签名方法.首先提出其基本设计思想,在定义二维 字典及其数据结构之后,给出了二维字典签名的构造算法及其查询操作算法,最后构造了存储 开销和查询代价模型.  相似文献   

13.
数据库数据量日益增多,造成了用户在使用数据库系统查询时费时费力,传统的查询优化方式已无法满足如今的数据查询要求,提高数据库系统优化的效率也成为计算机研究工作的热点。提出基于半连接算法的分布式查询处理技术对数据库系统进行查询优化,提出半连接操作的查询优化算法(SDD-1),并采用实验分析的方法进行验证,计算查询算法的代价。结果表明,基于半连接的研究策略的分布式数据库查询优化可以显著降低传输代价,使查询总效率得到有效提高。  相似文献   

14.
空间信息处理和地理信息系统等领域的数据管理涉及到海量、高维空间数据对象的处理。本文针对传统数据索引结构在处理这类空间数据时所存在的内存使用过大、I/O消耗过多等问题,通过改进选择查询的代价模型,给出了基于PQR-tree的查询和代价模型,以提高空间数据查询的性能。提出了基于PQR-tree的三阶段并行查询的方法,分别在任务创建、分配、执行阶段进行优化。提出在任务创建和任务分配阶段应用于空间查询中过滤和精炼阶段的有效算法。测试表明,本文算法在处理各种不同分布类型数据集过程中有效降低了空间数据处理对时间和空间的代价和需求,并且并行机制下的代价模型在预测和评估方面也具有较好的精确度。  相似文献   

15.
对于云数据库中查询过程中的连接操作来说,具有代价高且费时的特点,在分析大量的重复查询操作在云数据库应用中的基础上,为了提高查询效率,使得传输时间和计算时间极可能缩短,这里提出对于半连接过程进行优化处理,云数据库查询操作中间结果数量,包括相应的网络传输数量能在优化的半连接查询算法中大大减少.所以,对于复杂查询问题具有一定的实用价值.  相似文献   

16.
简要的介绍了分布式数据库系统的概念和特点,并在分析比较分布式数据库系统和集中式数据库系统查询优化目标不同特点的基础上,归纳出分布式数据库系统的查询优化目标和代价分析,进而提出查询优化的策略,并在举例中重点讨论了操作执行顺序的不同对查询性能的影响。  相似文献   

17.
沈亢伟  王于同 《计算机工程》2007,33(19):88-90,9
介绍了一种新型的可扩展分布式数据结构——EP*。EP*文件可以随着记录的插入而逐渐扩展到多台服务器上,它的结构比较简单,能够同时支持单记录操作和范围查询操作。实验结果显示,与现有的EH*结构相比,EP*结构不但增加了范围查询功能,而且在文件增长过程中,其填充因子和单记录操作的消息消耗数的变化都更加稳定,而平均填充因子和单记录操作的平均消息消耗数则与EH*结构很接近。  相似文献   

18.
The design of an OLAP system for supporting real-time queries is one of the major research issues. One approach is to use data cubes, which are materialized precomputed multidimensional views of data in a data warehouse. We can derive a set of data cubes to answer each frequently asked query directly. However, there are two practical problems: (1) the maintenance cost of the data cubes, and (2) the query cost to answer those queries. Maintaining a data cube requires disk storage and CPU computation, so the maintenance cost is related to the total size as well as the total number of data cubes materialized. In most cases, materializing all data cubes is impractical. The maintenance cost may be reduced by merging some data cubes. However, the resulting larger data cubes will increase the query cost of answering some queries. If the bounds on the maintenance cost and the query cost are too strict, we help the user decide which queries to be sacrificed and not taken into consideration. We have defined an optimization problem in data cube system design. Given a maintenance-cost bound, a query-cost bound and a set of frequently asked queries, it is necessary to determine a set of data cubes such that the system can answer a largest subset of the queries without violating the two bounds. This is an NP-hard problem. We propose approximate Greedy algorithms GR, 2GM and 2GMM, which are shown to be both effective and efficient by experiments done on a census data set and a forest-cover-type data set.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号