期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

冯志林《计算机应用与软件》1989,6(3):38-47

相似文献

2.

危奇万立《计算机光盘软件与应用》2013,(24):69-72

XML(Extensible Markup Language,可扩展标记语言)凭借其简单、跨平台、方便阅读等优点,在当今各个领域得到了广泛的应用。然而,作为数据交换标准的XML面对当今海量数据,由于结构不易拆分等问题,其存储和查询性能并不理想。Hadoop的出现,提供了一种新的解决办法。由于Hadoop本身并不适合类似XML格式的半结构化文件处理,因此本文提出来一种基于Hadoop的海量XML查询的解决方案,充分利用Hadoop的并行性能,同时还引入了高效的索引机制,很好的解决了海量XML存储于查询性能问题,实验证明,该方案能达到良好的效果。相似文献

3.

连接查询的分片传输算法

下载免费PDF全文

邹先霞贾维嘉潘久辉《计算机工程与应用》2009,45(35):10-13

在分布式数据处理及信息集成应用中,大量使用涉及信息源本地基表的连接运算的查询,其结果往往数据量非常大,而这样的查询可能会被多次重复地使用,因此,如何降低数据通信量对于提高系统性能至关重要。提出了一个基于查询定义的分片传输算法来降低数据传输量。相似文献

4.

基于Map-Reduce的海量数据高效Skyline查询处理 总被引：2，自引：0，他引：2

丁琳琳信俊昌王国仁黄山《计算机学报》2011,34(10):1785-1796

Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,该文是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查... 相似文献

5.

基于半连接的并行查询处理算法的研究 总被引：8，自引：0，他引：8

王意洁王勇军卢锡城《软件学报》2001,12(2):219-224

多元连接查询的并行执行是并行数据库的研究重点,传统的并行查询处理算法没有利用面向对象数据库及其查询的特点,算法效率较低.借鉴分布式数据库查询处理中基于半连接的优化思想,提出了基于半连接的并行查询处理算法.性能评价表明了其实用性和有效性. 相似文献

6.

分布式数据库中基于半连接的查询优化算法研究 总被引：2，自引：0，他引：2

魏士伟黄文明康业娜周娅《计算机应用》2007,27(B06):34-36,39

首先阐述了分布式查询优化的主要目标，介绍了半连接算法和基于半连接的二分劈开缩减算法，分析了两者的特点和不足并在其基础上提出了一种新的优化算法——两次半连接对接算法。通过进行两次半连接减少了通信信息量，并且利用多结点的并行性处理提高了查询的响应时间和处理速度。通过对三种算法的比较对新算法的性能进行了分析，结果表明，该算法在某些特定的环境下确实具有较高的处理速度、节点利用率和实际可行性，适合大规模的数据库查询。相似文献

7.

基于图的适应性多连接查询优化算法 总被引：1，自引：0，他引：1

下载免费PDF全文

陈恕胜刘卫东《计算机工程》2009,35(10):80-82

提出一种基于图的适应性多连接查询优化算法,分析关系结果集到达时间和结果集大小之间的关系,借鉴适应性查询优化的动态调整思想,对基于图的多连接查询进行改进。仿真实验结果表明,该算法在最好情况下的时间复杂度为O（n）,且能有效提高查询效率。相似文献

8.

非均匀数据分布下的MapReduce连接查询算法优化

《计算机科学与探索》2017,(5):752-767

MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。相似文献

9.

半连接查询优化算法的研究

仝武宁冉崇善李宏斌《计算机工程与设计》2011,32(3):972-975

为了提高分布式数据库管理系统的查询效率,分析了分布式数据库管理系统的特点,找出了影响分布式数据库管理系统查询效率的关键因素,讨论了直接连接查询的常见策略和半连接查询的原理、实现方法以及所花费的传输代价,最后结合分布式数据库管理系统的具体实例提出了一种半连接查询策略。改进后的半连接查询策略优化了连接方案,降低了数据传输过程的成本,缩短了查询处理的响应时间,提高了查询操作的效率。相似文献

10.

基于递归随机搜索算法的Hadoop平台大数据软件系统研究

齐超崔然《软件》2020,(6):177-184

随着互联网时代的到来,互联网数据的产生和收集数量呈爆炸式发展。使用金融机构大数据抓取软件系统处理和存储相关数据成为许多商业机构和研究机构的常态化选择,金融机构大数据抓取软件系统可以简化使用者对于信息传输和信息计算的具体操作,便于提高使用者的使用效率和准确率。本文研究的金融机构大数据抓取软件系统通过Python和Java语言完成,主要包括:金融机构大数据抓取软件系统分析模块、金融机构大数据抓取软件系统优化模块、金融机构大数据抓取软件系统预测模块。在研究的过程当中本文采用了递归随机搜索算法、Java图形界面、Hadoop平台进行设计研究。经过测试,在选用服务器为Intel Atom D510时,金融机构大数据抓取软件系统优化模块在Hadoop集群上开展优化,系统任务执行时间变短,比原来的数据时间缩短了5%以上,优化有效。相似文献

11.

数据仓库查询处理中的一种多表连接算法 总被引：20，自引：2，他引：20

蒋旭东周立柱《软件学报》2001,12(2):190-195

在进行数据仓库的OLAP(onlineanalyticalprocessing,联机分析处理)查询处理时,经常会涉及到多表连接操作,因此,提高多表连接的性能就成了数据仓库领域的关键性问题.基于数据仓库的星型模式,给出了一种新的多表连接算法(M-Join).与传统关系数据库管理系统的多表连接查询处理相比,该算法充分考虑了数据仓库中的数据本身和多表连接的特点,采用对多个表进行一次性连接的方法,使得查询的性能有明显的改善.同时,还给出了算法的实验结果和分析. 相似文献

12.

一种基于多连接属性划分的查询优化算法

褚龙现申远《计算机与现代化》2012,(5):10-13

查询操作是数据库中最常用的操作,由于分布式数据库的数据分布性和冗余性,使得查询优化处理成为分布式数据库研究的核心问题之一。为了提高分布式数据库查询效率,分析讨论了基于直接连接的常见执行策略和查询优化算法,同时针对分布式数据库应用中多表连接时存在多连接属性,提出一种改进的直接连接查询优化策略。改进后的算法提高了查询执行的并行性,缩短了查询处理时间,提高了查询效率。相似文献

13.

开源关系数据库集群的并行空间连接算法实现

范协裕任应超《计算机系统应用》2016,25(10):233-239

当前对并行空间连接查询的研究主要集中在算法设计上,缺少在并行关系数据库管理系统上的应用实现研究.通过分析并行空间连接算法流程,利用开源并行关系数据库集群项目PL/Proxy,提出了混合式计算迁移模式并扩展了对空间操作的支持,并在其上实现了可扩展的基于空间划分的并行空间连接算法.通过真实数据的实验表明：设计实现的并行空间连接算法在空间数据划分负载均衡的情况下,可实现近线性的加速比;而在空间划分产生数据倾斜严重的情况下,仍具有一定的加速比,同时具备针对空间划分方案改进的可扩展能力.算法的实现方式为进行并行空间数据管理研究提供了一种可行的解决方案. 相似文献

14.

基于Kd树递归区域划分的分布式空间连接查询

赵清华陈荦景宁《计算机工程与科学》2011,33(8):167

随着空间信息应用需求的不断增长,分布式空间查询处理已经成为空间数据库领域一个重要的研究问题,其中应用最广也是最复杂的一类查询是分布式空间连接查询,分布式空间连接操作的计算代价与传输代价都非常高。目前处理该问题的策略大都要求空间数据集上存在索引并且对数据分布敏感,然而在某些情况下,这个前提并不存在。面对这个问题,本文提出一种基于Kd树递归区域划分的分布式空间连接策略,该策略以最小化网络数据传输代价为目标,基于任务分治的思想对连接区域进行递归划分。实验表明,该策略在不同数据分布情况下均优于传统查询策略,能有效地减小网络传输代价,表现出较好的性能。相似文献

15.

联机分析查询处理中的一种聚集算法 总被引：10，自引：2，他引：10

蒋旭东冯建华周立柱《软件学报》2002,13(1):65-70

联机分析处理(online analytical processing,简称OLAP)查询是涉及大量数据的即席复杂查询,从SQL(structured query language)角度来看,这些查询通常都包含多表连接和分组聚集操作.从OLAP查询处理角度出发,提出一种新的基于排序的聚集查询算法MuSA(sort-based aggregation with multi-table join).该方法充分考虑到数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin相结合,排序时采用相似文献

16.

基于Hadoop的海量医疗小文件处理系统

魏强孔广黔吴云《计算机与数字工程》2015,43(4)

由于Hadoop自身不适合处理海量的小文件,论文提出了一种小文件处理方案,将小文件归并到SequenceFile中有效地解决了NameNode内存使用问题,设计了基于Hadoop的海量医疗小文件处理系统,实验证明该系统在内存使用以及处理大文件时具有良好的性能. 相似文献

17.

基于MapReduce的混合连接算法

胡龙罗军《计算机与现代化》2015,(6):86

运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJ A,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJ A可以在大多数的Hadoop场景中发挥很好的性能。相似文献

18.

基于Hadoop的Lorenz超混沌加密算法设计

温贺平 鲍晶晶 柯居鑫 刘树威 《计算机与现代化》2018,(3):108

针对大数据环境中存在的数据安全及隐私保护问题,提出一种基于Hadoop大数据平台的超混沌数据加密算法。利用超混沌Lorenz系统更加复杂的动力学行为以及所产生的序列具有更好的随机性等特点,结合Hadoop平台的MapReduce并行编程模型,设计具有较高执行效率和安全性的密码算法。实验结果表明,相比于AES算法,本文设计算法的执行效率提高了近40%。在安全性方面,算法具有密钥空间大、密钥敏感性良好的特性。相似文献

19.

基于符号语义的不完整数据聚集查询处理算法

张安珍李建中高宏《软件学报》2020,31(2):406-420

研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 相似文献

20.

多路R树连接的加权处理

姜素芳陈天滋《计算机工程与应用》2006,42(31):174-178

空间连接运算是空间数据查询中最重要、最耗时的基本操作之一,其中基于R树的空间连接(RJ)被认为是一种高效的处理机制,但在空间连接的精化阶段处理复杂的空间数据时需要很大的系统开销。基于MBR及直接查询谓词,提出了一种加权处理方法,并扩展了R树结构及MRJ算法。从而优化了多路R树连接的筛选处理,能得到更加有效的候选集;同时,减少了磁盘访问次数,可节省CPU及I/O的时间开销。还通过应用实例验证了其在空间数据库查询优化方面的优势。相似文献