首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对海量数据查询效率低的问题,在比较和分析了多种海量数据查询优化解决方案的优缺点后,提出了一种基于数据划分的海量数据查询性能优化方法.该方法利用多数据库处理、表分区、分表技术将数据在三个维度上将数据划分存储,减少了海量数据的查询规模.经过实验该方法提高了大规模海量数据的查询效率.  相似文献   

2.
SQL语句的质量是影响海量数据查询效率的关键因素。关于SQL查询优化的方法众多,涉及面较广。以上海市实有人口信息管理系统性能优化为实践基础,在描述SQL提示及其使用原则的同时,着重介绍SQL提示在提高海量数据查询效率方面的一些使用方法。  相似文献   

3.
《软件》2016,(3):79-83
伴随海量数据存储、处理技术的发展,数据中心中积累了大量的格式化历史数据,此类数据呈现出数据规模庞大、被查询频次低和查询内容规律不确定等特点,而当前以文件为操作对象的系统在查询此类数据时主要采用分布式计算引擎对数据进行全局遍历,存在处理时间长、系统资源消耗高等问题。因此,本文提出了一种基于列式多级索引的海量数据高效查询方法,使得查询过程中只有承载相关数据的节点参与计算,大幅降低了系统资源消耗。实验表明,本文方法在用于大规模历史数据内容查询时,相对于较主流的文件系统查询技术有明显的效率提升。  相似文献   

4.
杨伟超  刘阳  李淑霞 《福建电脑》2011,27(12):140-140,145
随着图书馆数据大规模的增长,海量数据的组织、查询和存取日益成为应用性能的关键。本文针对图书馆海量数据的情况,从几个方面进行分析研究,重点对海量数据进行查询优化研究,探寻一些能够优化海量数据性能的方法。  相似文献   

5.
6.
XML流数据在互联网领域有着广阔的应用,海量流数据的高性能处理与查询需求的多样性给对XML流数据的查询处理技术提出了更高的要求,针对XML流数据上的XPath查询,以下推转换机(Pushdown Transducer)为基础,提出一种新的查询处理方法。该方法支持包含PC轴、AD轴同时包含多重存在谓词、值谓词和嵌套谓词的XPath查询,覆盖XPath查询的核心部分。该方法能够满足用户复杂的查询需求,同时具有较高的性能。  相似文献   

7.
目前的关系数据库代价模型及查询优化算法无法处理保存在第三级存储器中的海量数据.提出了估算第三级关系代数操作的代价模型,通过定义若干基本数据访问模式及两种模式合成方法的代价,导出关系代数操作的代价.提出了针对第三级存储器的查询优化方法,该方法不仅可以选择最高效的关系代数操作实现算法,而且可以选择I/O代价最小的关系副本,从而提高查询效率.实验结果表明,应用提出的代价模型及查询优化方法后可以显著地提高第三级存储器上数据的查询效率.关系副本的引入充分证明了用存储空间换取查询执行时间的策略的可行性.  相似文献   

8.
王勇  戴牡红 《计算机系统应用》2011,20(9):234-237,229
传统的数据仓库优化技术在大表的选择上只能实现降低查询处理时间或减少存储以及维护开销中的一个,无法达到同时优化的效果。在传统的优化技术上,利用水平分区和位图索引方法的特点,提出了HP→BIs方法。实验结果表明,通过该方法可以同时降低查询处理时间和减少存储以及维护成本。  相似文献   

9.
空间信息处理和地理信息系统等领域的数据管理涉及到海量、高维空间数据对象的处理。本文针对传统数据索引结构在处理这类空间数据时所存在的内存使用过大、I/O消耗过多等问题,通过改进选择查询的代价模型,给出了基于PQR-tree的查询和代价模型,以提高空间数据查询的性能。提出了基于PQR-tree的三阶段并行查询的方法,分别在任务创建、分配、执行阶段进行优化。提出在任务创建和任务分配阶段应用于空间查询中过滤和精炼阶段的有效算法。测试表明,本文算法在处理各种不同分布类型数据集过程中有效降低了空间数据处理对时间和空间的代价和需求,并且并行机制下的代价模型在预测和评估方面也具有较好的精确度。  相似文献   

10.
为了使海量商务数据得到高效、稳定、安全的处理,提出了一种针对基于并行数据流技术的海量数据管理系统,详细探讨了该系统中并行数据加载模块和并行数据查询模块的关键技术及具体体系结构,并对其中的并行查询技术提出相关的优化方案。  相似文献   

11.

With the rapid growth of massive data in the Internet of Multimedia Things, there are some problems of insufficient storage space and unbalanced load in the current methods. For the problem of massive real-time data storage, a distributed cluster storage optimization method is proposed. Considering the impact of replica cost and the generation of intermediate data on the replica layout, a replica generation and storage strategy is given with consideration of cost and storage space. In the data center, the data sensitivity and data access frequency is used as migration factors to achieve massive data migration. The improved collaborative evolution method is used to code the task scheduling particle swarm in massive data storage to obtain the optimal solution, and achieve massive real-time data distributed cluster storage for the Internet of things. The experimental results showed that the cost of data management by this method was only between 10 and 15, which showed that this method can effectively improve data access speed, reduce storage space, lower cost and better load balancing.

  相似文献   

12.
压缩数据库技术是海量数据管理的重要技术之一.利用海量数据自身及其数据操作的特点,提出了一种海量数据压缩存储结构.该存储结构将第二级和第三级存储器结合起来,以数据操作条件中的谓词为索引,在减少存储空间的同时有效地支持查询、删除和更新等数据操作.理论分析和实验结果表明,这种存储结构可以提高海量数据的存储效率和数据操作的性能.  相似文献   

13.
针对储能系统中海量的存储数据,采用旋转门压缩算法,对数据进行处理和压缩,节省数据的存储空间,选取系统中某电池簇12小时的运行数据进行模拟仿真.实验结果表明,使用该方法可大大节约数据的存储空间,在满足系统精度的需求上能够最大化压缩数据,合理减少数据的存储量.  相似文献   

14.
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。  相似文献   

15.
第3级存储器的联机使用为海量数据管理提供了一种廉价可行的方案.为了使数据库管理系统能够联机使用第3级存储设备,第3级存储设备上的关系操作算法,特别是连接操作算法是必须解决的关键问题之一.提出一种高效的连接算法.实验结果表明,该算法无论在性能方面还是在扩展性方面都优于以往算法,极大地减少了I/O代价.当数据量较大时,算法的性能不低于基于磁盘的连接算法.结果表明,第3级存储器可以像磁盘一样在海量数据库系统中联机使用,解决海量数据库存储和联机查询等关键问题.  相似文献   

16.
大规模的数据存取是制约数字信号处理器系统效率的主要因素之一。在传像光纤束成像系统中,为提高出端光纤束在光纤中心定位过程中数据存取的效率,提出DM642平台下的光纤中心定位优化方法。在存储器配置方面,设置二级储存器缓存与片内随机存储器的模式,预取部分片外数据到片内随机存储器。在数据传输方面,设计数据存储动态偏移量,自适应迭代,避免重复读入。实验结果表明,优化后的算法实现了光纤中心的定位,时间开销降低了1/4,提高了系统的运行效率。  相似文献   

17.
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的“重复”测序文件和测序结果中的“重复”内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对FastQ中的序列和质量信息,使用SimHash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。  相似文献   

18.
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.  相似文献   

19.
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。  相似文献   

20.
基于Hough变换的圆形物体的检测   总被引:4,自引:0,他引:4  
Hough变换在图像处理中占有重要地位,但本身具有存储空间大、计算时间长的缺点。利用圆的几何特性,针对Hough变换的缺点进行改进,并将其应用到图像中存在多个圆的情况。实验表明:该算法能较好地减少存储空间,并降低计算时间,同时,能很好地对图像中多个圆进行检测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号