首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决MapReduce处理多个查询时效率低下的问题, 提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式, 找出其中共享的子查询部分, 并根据子查询的执行顺序构造执行计划有向图(DAG), 最终确定一组查询的整体执行计划。通过与Hive和Pig的对比, 验证了该方法能够在保证准确性的情况下有效地减少执行步数, 提高查询执行的效率。  相似文献   

2.
基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。  相似文献   

3.
安全管理平台(SMP)是实现安全管理工作常态化运行的技术支撑平台,在实际应用中需要实时处理来自安全设备所产生的海量日志信息。为解决现有SMP中海量日志查询效率低下的问题,设计基于云计算的SMP日志存储分析系统。基于Hive的任务转化模式,利用Hadoop架构的分布式文件系统和MapReduce并行编程模型,实现海量SMP日志的有效存储与查询。实验结果表明,与基于关系数据的多表关联查询方法相比,该系统使得SMP日志的平均查询效率提高约90%,并能加快SMP集中管控的整体响应速度。  相似文献   

4.
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。  相似文献   

5.
赵猛  陈珂  寿黎但  伍赛  陈刚 《软件学报》2022,33(12):4727-4745
自然语言查询转SQL(NL2SQL)是指将自然语言表达的查询文本自动转化成数据库系统可以理解并执行的结构化查询语言SQL表达式的技术.NL2SQL可以为普通用户提供数据库查询访问的自然交互界面,从而实现基于数据库的自然问答.复杂查询的NL2SQL是当前数据库学术界的研究热点,主流方法采用序列到序列(Seq2seq)的编解码方式对问题进行建模.然而,已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂查询转化困难;此外,现有工作难以正确输出包含复杂计算表达式的查询子句.针对上述问题,提出一种树状模型取代序列表示,将复杂查询自顶向下分解为多叉树,树结点代表SQL的各组成元素,采用深度优先搜索来预测生成SQL语句.在Du SQL中文NL2SQL竞赛的两个官方测试集中,该方法分别取得了第1名和第2名的成绩,验证了其有效性.  相似文献   

6.
大数据环境下数据库所存储的数据量呈爆炸式增长,如何保持高吞吐率并让客户得到满意的数据查询和处理结果,已经成为一个急需解决的问题。金融、电信以及互联网等行业要求企业的统计分析平台能支持分布式、高可用性和可扩展性的分布式查询环境,以便能及时高效的完成查询分析任务,做出更合理的业务决策。目前已经有很多公司在一定范围内将应用从关系数据库向Hbase进行迁移,但是大多数都是和Hadoop MapReduce或Hive结合使用,导致数据量增加后的分布式查询耗时过长,性能也随之下降。此外Hbase也有其自身的局限性,不能兼容传统数据库上的SQL应用。本文在分析了现有分布式数据库系统平台并深入研究Hbase的实现原理及高级特性的基础上,提出了基于Hbase的可扩展性查询优化方案(Hbase DSPE),即把Hbase的优点和SQL的易用性结合。这样做有助于对复杂SQL查询的优化,可以充分利用Hbase的诸多高级特性进行查询性能调优,对企业在大数据环境下从传统关系数据库向大数据平台的迁移具有现实的指导意义。  相似文献   

7.
基于多核CPU和GPU异构平台的列数据库可用于海量数据和复杂查询,但其优化主要集中在底层,并且后端的执行序列只能通过手工硬编码生成,不能适应多样的SQL查询语句.针对该问题,设计并实现一个将SQL查询语句自动转化成执行序列的编译器,研究多个复杂表达式中的公共子表达式消除和原语依赖图合并方法.与手工编码的比较结果表明,该编译器能够提高算术表达式的计算速度,缩短执行SQL查询语句的时间.  相似文献   

8.
随着电子商务和信息技术的飞速发展,企业需要存储和处理的数据量正在以惊人的速度增长,而传统的关系型数据库管理系统已无法满足企业对大规模数据的处理需求,因此,基于云计算的海量结构化数据处理日益成为人们关注的热点。针对Hadoop云计算平台在处理结构化数据方面的不足,给出一种以异构的数据库集群作为底层的数据存储系统,以扩展的MapReduce框架作为任务的管理和执行容器的查询系统。为提高查询的效率,给出一种优化的查询和数据分布策略。实验表明,该查询系统的执行效率较Hive有很大的提升。  相似文献   

9.
分析了 Cloudera 公司推出的 Impala 实时查询引擎原理与架构,并深入比较 Impala 与传统 MapReduce 的性能与特点,针对 Impala 进行复杂大数据处理方面的不足,提出了 MapReduce 与 Impala 结合的大数据处理方法,通过使用 MapReduce 对 Impala 的输入数据进行预处理,利用 MapReduce 在复杂作业处理方面的长处弥补了Impala 在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于 MapReduce 与 Impala 结合的大数据处理速度比传统 MapReduce 快了一倍。特别地,在迭代查询实验中,基于 MapReduce 与 Impala 结合的处理方法超过传统 MapReduce 方法八倍以上。基于 MapReduce与 Impala 结合的处理方法在单次查询中的效率仍然高于传统 MapReduce;而在迭代查询中,MapReduce 与 Impala结合的处理方法远远地超过了 MapReduce。因此,MapReduce 与 Impala 结合的处理方法能够发挥 Impala 和 Ha-doop 各自的优点,让处理效率远超传统 MapReduce,对于复杂的大数据处理的能力高于 Impala。  相似文献   

10.
时空数据库和基于集群计算的时间分析工具大多基于外存,将其应用在大数据处理场景下系统性能将迅速降低。为此,基于Spark构建一个易用且高可扩展的时态大数据查询分析系统。通过扩展Spark SQL解析器,使其能够支持类SQL形式的时态操作,运用SIMBA开源项目的方法,引入全局过滤和局部时态索引2种优化策略,使得系统能以高吞吐量及低延迟执行时态查询操作。基于时态查询效率的评估实验结果表明,在不同影响参数下,该系统的时态查询性能优于原生的Spark SQL查询处理方案。  相似文献   

11.
IT运维终端用户数据查询时存在查询执行时间过长的问题,提出基于MapReduce的IT运维终端用户数据查询方法。设置终端用户数据查询关键词,获取终端用户数据特征;基于MapReduce设计运维数据查询算法;构建终端用户数据索引查询框架,从而完成IT运维终端用户数据查询。实验结果表明,设计的IT运维终端用户数据MapReduce查询方法的查询执行时间较短,查询效率较高,具有省时性,有一定的应用价值,为后续运维终端用户数据处理作出一定的贡献。  相似文献   

12.
王正也  李书芳 《软件》2014,(11):94-100
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。  相似文献   

13.
对SQL翻译成MapReduce程序的性能进行分析,并对影响翻译性能的原因进行阐述。结合MapReduce作业间输入相关性、数据转换相关性和作业流相关性的分析,通过合并冗余的作业,减少资源消耗,从而达到提高SQL查询性能的目的,给出了优化条件和优化规则。通过对优化前后的性能进行对比,证明改进后的SQL过程有更高的执行效率。  相似文献   

14.
在实验室系统处理海量原始数据时,实际应用场景中存在采样率高、偏度(skewness)高的特殊情况,导致在使用两阶分区算法在平衡同构环境下的Reducer节点负载时,无法有效地处理这些问题。为此,引入MapReduce的并行化处理,可以提高实验室系统中采样数据利用率;同时,为了解决数据偏度和采样度高的问题,则采用了ICSC(Improved Cluster Split Combination)分区调度的算法。经过实验证明,基于两阶分区的MapReduce负载均衡算法能够有效减少Mapper和Reducer节点空转的时间。随着数据偏度的增加,算法的执行时长基本不产生变化,即数据偏度对该算法执行时间的影响较小。此外,数据采样度的增加,ICSC分区调度算法也保持着对比模型中最少的时间开销。因此,基于两阶分区的MapReduce负载均衡算法弱化了Reducer节点间的依赖性,并提升MapReduce任务的执行效率和容错率,从而高效地实现MapReduce框架下的实验室系统中数据处理的负载均衡。  相似文献   

15.
关系数据库语言的国际标准在1987年被确定,到目前为止,版本由SQL—89标准、SQL—92标准升级到SQL—99标准,这些版本全称为SQL3。SQL现在已成为数据库领域中使用最为广泛的一个主流语言。它主要由数据查询、数据操纵、数据定义和数据控制四个功能组成。其中数据查询是SQL的核心功能,这其中多表查询也是最为复杂的查询,本文正是立足于SQL的多表查询在实际应用中的应用研究。  相似文献   

16.
联机分析查询处理中的一种聚集算法   总被引:10,自引:2,他引:10  
联机分析处理(online analytical processing,简称OLAP)查询是涉及大量数据的即席复杂查询,从SQL(structured query language)角度来看,这些查询通常都包含多表连接和分组聚集操作.从OLAP查询处理角度出发,提出一种新的基于排序的聚集查询算法MuSA(sort-based aggregation with multi-table join).该方法充分考虑到数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin相结合,排序时采用  相似文献   

17.
云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖掘出更高价值的信息。以网站流量统计分析为例,从Hive的环境搭建、数据仓库构建、数据查询等方面介绍了Hive的应用。  相似文献   

18.
在基于关系型数据库构建的大规模配置管理数据库(CMDB)中,根据业务场景实现的关联查询功能,存在查询分析语句构造复杂、执行时间长的性能问题。为解决该问题,提出利用图数据库来实现关联查询的方法。利用配置项间的关系与图数据结构的一致性,构建基于图数据库的配置项关系表达,设计并实现一个基于图数据库的关联查询模块,以松耦合的方式集成到现有的配置管理数据库中,达到快速关联查询的目标。实验表明,本文的方法能有效解决大规模关系型数据库CMDB关联查询的性能问题。  相似文献   

19.
针对水利普查数据海量、多维的特点,研究近年来在“大数据”概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶、消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试。测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求。   相似文献   

20.
康炎丽  李丰  王蕾 《软件学报》2017,28(7):2126-2147
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果,优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.本文从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如:MapReduce)周期性调度执行的物理查询任务.本文以Apache Hive为基础实现了上述方法的原型HiveInc.实验表明,对于扩展了增量语法描述的TPC-H测试集,HiveInc相比优化前,可以获得平均2.93倍,最高5.78倍的加速;与经典优化技术IncMR,DryadInc相比,分别可以获得1.69和1.61倍的加速.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号