共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
XML(Extensible Markup Language,可扩展标记语言)凭借其简单、跨平台、方便阅读等优点,在当今各个领域得到了广泛的应用。然而,作为数据交换标准的XML面对当今海量数据,由于结构不易拆分等问题,其存储和查询性能并不理想。Hadoop的出现,提供了一种新的解决办法。由于Hadoop本身并不适合类似XML格式的半结构化文件处理,因此本文提出来一种基于Hadoop的海量XML查询的解决方案,充分利用Hadoop的并行性能,同时还引入了高效的索引机制,很好的解决了海量XML存储于查询性能问题,实验证明,该方案能达到良好的效果。 相似文献
3.
在分布式数据处理及信息集成应用中,大量使用涉及信息源本地基表的连接运算的查询,其结果往往数据量非常大,而这样的查询可能会被多次重复地使用,因此,如何降低数据通信量对于提高系统性能至关重要。提出了一个基于查询定义的分片传输算法来降低数据传输量。 相似文献
4.
5.
6.
分布式数据库中基于半连接的查询优化算法研究 总被引:2,自引:0,他引:2
首先阐述了分布式查询优化的主要目标,介绍了半连接算法和基于半连接的二分劈开缩减算法,分析了两者的特点和不足并在其基础上提出了一种新的优化算法——两次半连接对接算法。通过进行两次半连接减少了通信信息量,并且利用多结点的并行性处理提高了查询的响应时间和处理速度。通过对三种算法的比较对新算法的性能进行了分析,结果表明,该算法在某些特定的环境下确实具有较高的处理速度、节点利用率和实际可行性,适合大规模的数据库查询。 相似文献
7.
8.
《计算机科学与探索》2017,(5):752-767
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。 相似文献
9.
为了提高分布式数据库管理系统的查询效率,分析了分布式数据库管理系统的特点,找出了影响分布式数据库管理系统查询效率的关键因素,讨论了直接连接查询的常见策略和半连接查询的原理、实现方法以及所花费的传输代价,最后结合分布式数据库管理系统的具体实例提出了一种半连接查询策略。改进后的半连接查询策略优化了连接方案,降低了数据传输过程的成本,缩短了查询处理的响应时间,提高了查询操作的效率。 相似文献
10.
随着互联网时代的到来,互联网数据的产生和收集数量呈爆炸式发展。使用金融机构大数据抓取软件系统处理和存储相关数据成为许多商业机构和研究机构的常态化选择,金融机构大数据抓取软件系统可以简化使用者对于信息传输和信息计算的具体操作,便于提高使用者的使用效率和准确率。本文研究的金融机构大数据抓取软件系统通过Python和Java语言完成,主要包括:金融机构大数据抓取软件系统分析模块、金融机构大数据抓取软件系统优化模块、金融机构大数据抓取软件系统预测模块。在研究的过程当中本文采用了递归随机搜索算法、Java图形界面、Hadoop平台进行设计研究。经过测试,在选用服务器为Intel Atom D510时,金融机构大数据抓取软件系统优化模块在Hadoop集群上开展优化,系统任务执行时间变短,比原来的数据时间缩短了5%以上,优化有效。 相似文献
11.
数据仓库查询处理中的一种多表连接算法 总被引:20,自引:2,他引:20
在进行数据仓库的OLAP(onlineanalyticalprocessing,联机分析处理)查询处理时,经常会涉及到多表连接操作,因此,提高多表连接的性能就成了数据仓库领域的关键性问题.基于数据仓库的星型模式,给出了一种新的多表连接算法(M-Join).与传统关系数据库管理系统的多表连接查询处理相比,该算法充分考虑了数据仓库中的数据本身和多表连接的特点,采用对多个表进行一次性连接的方法,使得查询的性能有明显的改善.同时,还给出了算法的实验结果和分析. 相似文献
12.
查询操作是数据库中最常用的操作,由于分布式数据库的数据分布性和冗余性,使得查询优化处理成为分布式数据库研究的核心问题之一。为了提高分布式数据库查询效率,分析讨论了基于直接连接的常见执行策略和查询优化算法,同时针对分布式数据库应用中多表连接时存在多连接属性,提出一种改进的直接连接查询优化策略。改进后的算法提高了查询执行的并行性,缩短了查询处理时间,提高了查询效率。 相似文献
13.
当前对并行空间连接查询的研究主要集中在算法设计上,缺少在并行关系数据库管理系统上的应用实现研究.通过分析并行空间连接算法流程,利用开源并行关系数据库集群项目PL/Proxy,提出了混合式计算迁移模式并扩展了对空间操作的支持,并在其上实现了可扩展的基于空间划分的并行空间连接算法.通过真实数据的实验表明:设计实现的并行空间连接算法在空间数据划分负载均衡的情况下,可实现近线性的加速比;而在空间划分产生数据倾斜严重的情况下,仍具有一定的加速比,同时具备针对空间划分方案改进的可扩展能力.算法的实现方式为进行并行空间数据管理研究提供了一种可行的解决方案. 相似文献
14.
随着空间信息应用需求的不断增长,分布式空间查询处理已经成为空间数据库领域一个重要的研究问题,其中应用最广也是最复杂的一类查询是分布式空间连接查询,分布式空间连接操作的计算代价与传输代价都非常高。目前处理该问题的策略大都要求空间数据集上存在索引并且对数据分布敏感,然而在某些情况下,这个前提并不存在。面对这个问题,本文提出一种基于Kd树递归区域划分的分布式空间连接策略,该策略以最小化网络数据传输代价为目标,基于任务分治的思想对连接区域进行递归划分。实验表明,该策略在不同数据分布情况下均优于传统查询策略,能有效地减小网络传输代价,表现出较好的性能。 相似文献
15.
联机分析查询处理中的一种聚集算法 总被引:10,自引:2,他引:10
联机分析处理(online analytical processing,简称OLAP)查询是涉及大量数据的即席复杂查询,从SQL(structured query language)角度来看,这些查询通常都包含多表连接和分组聚集操作.从OLAP查询处理角度出发,提出一种新的基于排序的聚集查询算法MuSA(sort-based aggregation with multi-table join).该方法充分考虑到数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin相结合,排序时采用 相似文献
16.
由于Hadoop自身不适合处理海量的小文件,论文提出了一种小文件处理方案,将小文件归并到SequenceFile中有效地解决了NameNode内存使用问题,设计了基于Hadoop的海量医疗小文件处理系统,实验证明该系统在内存使用以及处理大文件时具有良好的性能. 相似文献
17.
运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJ A,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJ A可以在大多数的Hadoop场景中发挥很好的性能。 相似文献
18.
19.
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 相似文献
20.
空间连接运算是空间数据查询中最重要、最耗时的基本操作之一,其中基于R树的空间连接(RJ)被认为是一种高效的处理机制,但在空间连接的精化阶段处理复杂的空间数据时需要很大的系统开销。基于MBR及直接查询谓词,提出了一种加权处理方法,并扩展了R树结构及MRJ算法。从而优化了多路R树连接的筛选处理,能得到更加有效的候选集;同时,减少了磁盘访问次数,可节省CPU及I/O的时间开销。还通过应用实例验证了其在空间数据库查询优化方面的优势。 相似文献