首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着经济和科技的进一步发展,我国的数据量在不断增加,这对于存储系统提出更高的要求,要进一步提高数据加载的速度等,需要优化大数据的存储结构。基于此,将对大数据的影响、大数据在分布式处理中的资源消耗、大数据处理的要求以及改进的措施进行介绍,从而进一步促进大数据的发展。  相似文献   

2.
基数估计是实现数据库多表连接(JOIN)查询优化的重要手段之一。对数据量较大的数据表进行基数估计时常用数据抽样来获得较小的样本,从而估计各种查询负载下所需的数据基数。在单表上利用数据抽样来完成基数估计的方法已经得到广泛研究,但在多个数据表的抽样样本总体存储预算存在限制时,目前仍缺乏有效的多表间样本数划分方法使得整体基数估计达到较优。为此,提出一种面向多表JOIN查询优化的基数估计方法,针对一组给定的含有复杂多JOIN操作的查询负载,为其合理分配数据库中每个表的抽样率,从而在满足样本大小总和限制的同时使得基数估计准确率达到最高。将上述过程抽象为一个抽样率分配搜索问题,在数据库数据抽样问题中引入贝叶斯优化搜索算法,利用该算法快速搜索出不同表之间抽样样本大小的分配比例,使得有限时间内获得的样本分配方案对应的基数估计准确率最高,从而达到查询优化的目的。在TPC-H数据集上的实验结果表明,在相同时间内确定多JOIN操作查询负载下基数估计准确率最高的抽样比例方案时,相比随机搜索算法,贝叶斯优化算法所得方案对应的基数估计误差率降低54.8%~60.2%。  相似文献   

3.
目前的关系数据库代价模型及查询优化算法无法处理保存在第三级存储器中的海量数据.提出了估算第三级关系代数操作的代价模型,通过定义若干基本数据访问模式及两种模式合成方法的代价,导出关系代数操作的代价.提出了针对第三级存储器的查询优化方法,该方法不仅可以选择最高效的关系代数操作实现算法,而且可以选择I/O代价最小的关系副本,从而提高查询效率.实验结果表明,应用提出的代价模型及查询优化方法后可以显著地提高第三级存储器上数据的查询效率.关系副本的引入充分证明了用存储空间换取查询执行时间的策略的可行性.  相似文献   

4.
判断有向图上两个顶点之间是否存在一条路径是一个经典问题,而对于一些路由规划和图分析等实际应用,要求查找是否存在跳数受限的可达路径,这是一个变种的图可达查询问题.对于大图上跳数受限的查询算法,不仅仅要对大图查询的时间效率和空间效率进行权衡,而且还要利用跳数受限的特性进行优化.普通的可达查询算法存在小度数顶点索引项占用空间过多的问题,造成空间浪费严重.为此我们提出了一种面向跳数受限的2-hop部分索引方法,采用改进的索引方法并结合局部搜索,实现跳数受限的有效可达性查询.实验结果表明,在Orkut社交网络数据集上与已有算法相比,该算法索引空间节省了32%,同时查询时间略微增加,使得我们算法可以计算更大规模图的跳数受限可达问题.  相似文献   

5.
在MapReduce与数据库的混合架构中,数据划分是影响查询性能的重要因素。对于开销最大的连接和聚集操作,采用混合MapReduce的方式实现,需要大规模数据的跨结点传输,网络传输和I/O开销巨大。为了减少传输的数据量,并提高连接操作的查询效率,提出了划分建议器模型。实现了MapReduce和数据库混合架构上的划分建议器,并计算划分代价,生成最优的数据划分方案,提高了系统效率。为了减少查询时间,依据划分建议器模型,提出了基于代价优先的生成策略和空间搜索算法,减少了划分建议器生成最优方案的时间。通过实验验证了划分建议器的有效性,使系统的整体查询代价最小,显著提高了系统性能。  相似文献   

6.
《办公自动化》2012,(17):54
正创新阵列解决方案将集成在分层存储和管理产品中,以期帮助客户以最优成本回报保留并重新利用大数据内容。数据保护和大数据管理领域厂商昆腾公司(NYSE:QTM)近日宣布,通过将优化目标存储技术集成到新的分层存储和管理产品中,它将扩大自身在管理大数据内容方面的领导地位。这些新产品将使关注大数据内容和分析的客户应对长期以来维护及保护其磁盘上数据的当前挑战。  相似文献   

7.
王岩 《计算机仿真》2020,(4):406-409
目前信息分类提取方法不能满足用户在大数据时代下的信息获取速度需求,为此,提出了基于大数据中心存储信息分层分类优化的信息提取方法。提取数据信息的特征,对得到的信息特征进行校对和调整,在获得存储机制下大量信息的关键特征后,采用信息校验方法消除冗余信息,在信息的校验过程中获取冗余信息的二维坐标,根据这个坐标进行二次检验,确保冗余信息完全消除。利用获取的信息关键特征系数,对比校验区域信息,完成对信息的精确检测,保证信息分类分层优化的有效性。将优化后的信息作为分层分类信息提取的样本,通过条件假设和似然比对事件的发生概率的计算结果确定事件的发生概率,实现对分层分类优化后信息的提取。仿真结果证明,所提方法在提取大数据中心存储信息时,具有速度快、准确率高、信息损失量低等特点。  相似文献   

8.
合理的数据存储策略是节约无线传感器网络能量的重要手段之一,但是目前提出的存储方法往往没有考虑周期查询和ad hoc查询并存的情况,以及网络拓扑和查询响应时间约束等因素,因而会对系统带来额外的开销.提出了一种基于多级映射索引的数据存储方法,综合周期查询的响应时间约束和网络拓扑结构对网络分层,并在每层建立相应的数据索引,使处于不同层次的节点采用不同的数据存储方式,同时支持大量的ad hoc查询.实验证明,这种基于多级映射索引的数据存储方法能够大量地节约能量,并保证在有限的响应时间内处理更多的节点数据并返回结果.  相似文献   

9.
《软件》2019,(2):138-140
在交通数据量持续增长的影响下,传统的交通数据处理方法已经无法满足其需求,在云计算技术日渐成熟的影响下,基于交通大数据基础上,将其与Hadoop结合起来,通过对其非关系型数据库HBase进行合理运用,即可较好的实现对交通数据的存储和查询处理。  相似文献   

10.
当数据立方查询条件不是合取范式时,一般是将它转化成为若干合取范式的并的形式(析取范式)。但如果各合取范式之间有交集,则交集部分的记录会被多次查询。为了解决这个问题,文章提出了一种数据立方查询条件优化策略,把查询条件转化为互不相交的立方块的并的形式。文章详细地讨论了数据立方中互不相交的立方块的划分方法,并给出了该优化策略的实现算法和性能分析。结果表明,当查询条件不是合取范式时,该优化策略明显提高了查询性能。  相似文献   

11.
徐阳  陈华 《微机发展》2014,(2):123-126
减少空闲侦听是延长无线传感网络生命周期的有效途径。文章分析了无线传感网络在数据处理和数据传输时的能耗问题,提出了一种支持多分辨率查询的数据存储策略。该策略是将指定区域内所有无线传感节点的工作时槽以一种蛇形排列方式进行分配,使各节点周期性地进入睡眠或侦听状态。在任意时刻,有且仅有两个传感节点处于工作状态,既保证了系统的可靠性,又降低了系统的开销。仿真实验表明,该方法减少了空闲侦听,降低了传感器的能耗,有效延长了网络的生命周期。  相似文献   

12.
近年来,随着计算机技术的迅猛发展,其领域迎来了大数据时代。随着大数据的出现,传统的关系型数据库已经不能满足高储存量的要求,此时成本低廉、有着良好并行性和伸缩性的云数据库应运而生,它采用键值对数据模型和分布式的计算环境。但是海量数据在Key-value数据库中的查询效率低下、实时性差等问题又普遍存在。为了解决查询效率低下这一问题,将多维数据模型和索引技术应用于Key-value数据库,将事实数据以多维的形式进行存储并在多维模型上建立索引以加快查询速度。论文将系统地描述多维数据模型的建立和索引技术的实现,最后简单地和主流Key-value数据库进行优缺点对比。  相似文献   

13.
徐智  王岳  王欣 《计算机仿真》2021,38(7):304-307,354
针对非结构化数据云存储效率低下的问题,提出了结合区块链技术的非结构化大数据云存储方法.云存储网络利用F2域获得存储信息,根据域首判断出数据状况,实时更新存储策略;同时存储调度利用存储窗与采集窗估算出数据均值与动态振荡,确定存储更新的频次.另外,在云存储网络中引入存储审计策略,根据数据热度与损坏性确定存储审计需求,对存储数据进行存储时间、数据包量的审计,从而优化存储效率.最后考虑到传统非结构化数据云存储过程中的数据验证效率不佳问题,设计了区块链网络结构,并在其中实现了基于Merkle树与Hash的数据完整性高效验证.仿真结果表明,结合区块链技术的非结构化大数据云存储方法显著降低了数据的审计与存储时间,有效提高了非结构化数据的云存储效率,具有良好的大数据处理性能.  相似文献   

14.
在传感器网络中,考虑到节点的通信开销在节点总能量开销中的比重大,以及用户由粗到细分辨率的不同查询需求,有必要在传感器网络中建立支持多分辨率的数据存储机制.首先提出了一种支持多分辨率的数据压缩存储策略MDCS,节点基于MDCS在网内产生多分辨率的近似结果;其次,给出了一种基于MDCS的区域查询处理方法,根据用户给定的分辨率阈值去网内作区域查询处理,并将结果返回给用户.模拟实验表明,基于MDCS的区域查询处理方法能够高效、低能耗地支持多分辨率的区域查询操作.  相似文献   

15.
《信息与电脑》2019,(23):163-164
针对大数据背景下海量网络信息实时数据查询效率低的问题,提出基于大数据的网络信息异步并行查询方法,并基于此方法处理网络信息数据集群,建立网络信息异步并行查询模型,打造异步并行模式下的新框架,以及分析集群队列界面端异步查询实现流程。实验证明,此方法能够在海量网络信息中完成精准、高效查询。  相似文献   

16.
慈祥  马友忠  孟小峰 《软件学报》2014,25(4):813-825
Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性.  相似文献   

17.
Big data denotes the variety, velocity, and massive volume of data. Existing databases are unsuitable to store big data owing to its high volume. Cloud computing is an optimal solution to process and store big data. However, the significant issue lies in handling access control and privacy, wherein the data should be encrypted and unauthorized user access must be restricted through efficient access control. Attribute-based encryption (ABE) permits users to encrypt and decrypt data. However, for the policy to work in practical scenarios, the attributes must be repeated. In the case of specific policies, it is not possible to avoid attribute repetition even after the application of Boolean optimization approaches to obtain a Boolean formula. For these policies, there exists a variety of evaluated secret shares for the repeated attributes. Therefore, the calculation of cipher text for these irreducible policies seems to be lengthy and computationally intensive. To address this problem, an improved meta-heuristic-based repeated attributes optimization on cipher-text policy-ABE (CP-ABE) is developed in this study. Here, the improved meta-heuristic concept is developed in the encryption phase, which returns the optimized single share value of each repeated attribute after considering all the attribute shares. The optimization process not only minimizes the encryption cost but also the communication cost. Herein, the improved sun flower optimization (SFO), called the newly updated SFO (NU-SFO) is used to perform the repeated attribute optimization in CP-ABE. Finally, the performance evaluation confirms the reliability and robustness of the developed scheme through comparisons with traditional constructions.  相似文献   

18.
在大数据时代,我们面临着多种数据类型,数据规模以前所未有的速度增长,这给数据存储、管理以及分析带来了很大的挑战。传统的单机存储引擎显然不能满足数据爆炸性增长的需求,需要构建高性能、高可扩展、低成本、易用的分布式存储系统基础设施。本文对不同的分布式存储系统和其中的关键技术的研究进行全面的阐述和分析。  相似文献   

19.
数据查询优化算法综述   总被引:8,自引:0,他引:8  
综合提出了评价查询优化算法的4个标准,并基于这4个标准作了比较分析,便于更容易、更快捷地找到适用特定问题的优化方法。  相似文献   

20.
应用分布式索引提高海量数据查询性能   总被引:1,自引:0,他引:1  
在电信领域的精准化营销、即席查询业务中,存在着大量针对一张宽表或几张宽表(超过50字段)的随机查询场景. 传统处理模式(直接查询数据库)在数据量不大(〈;1000万)时,查询响应时间可优化到几秒至数十秒级,而当数据量到达几千万、上亿甚至十亿记录以上时,此处理模式无论如何优化或更改索引机制,都无法满足秒级并发查询要求.新的处理模式通过引入分布式Solr索引层解决上述问题.索引层预先对数据库记录建立索引,查询不再作用于数据库而直接查询索引层,如此,可大幅提高查询性能.经过对两种处理模式的对比验证,在相同环境下,数据量到达5000万,每秒20并发访问的宽表查询场景,传统处理模式的查询全部超时失败,而使用分布式索引层的查询可以在2秒以内返回,查询全部成功.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号