首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
《软件》2016,(11):64-67
随着大数据时代的到来,海量数据对传统数据库技术提出了存储和检索性能的挑战。HBase是开源No SQL数据库,适合于各种非结构化和半结构化的松散数据的存储和管理,目前已经被很多大型企业用于处理海量数据。它基于rowkey的有序存储,对rowkey支持毫秒级的快速检索。然而,随着HBase应用的不断深入,单一的通过rowkey检索数据的方式不再满足需求,在实际应用中,经常需要根据指定字段,或者几个字段进行组合检索。针对该问题,本文提出了一种基于Redis创建HBase二级索引的方法,使得在实际应用中,支持多条件查询,提升查询的效率和性能。  相似文献   

2.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

3.
地震资料分布式存取的效率优化设计   总被引:1,自引:0,他引:1  
目前,存取海量非结构化地震数据的常用方法,存在着在物理层和应用层添加了逻辑层影响访问速度,降低访问效率的弊端.为了在不增加额外成本的基础上,改善数据的存储方法、提高地震数据的访问效率,论文研究一种基于hadoop框架下地震资料分布式存取设计的思想,采用混合索引查询方法进行统一访问.采用对数据请求按操作进行预处理,通过建立基于关键字的索引、数据库索引等技术,优化因为了缩短开发周期,节约软件运行成本而增加逻辑层带来的查询速度慢的问题,提高数据的存取效率.  相似文献   

4.
本文主要是针对关系型数据库的信息管理系统在处理海量数据的存储与检索方面的一些可选方案进行探讨与分析,并结合实际应用,分别从分布式数据存储、动态表、索引、查询语句优化等4个方面对海量数据的存储与检索给出可行的优化配置解决方案。  相似文献   

5.
海量气象观、探测数据是提高公共气象服务精细化、精准化和个性化水平的关键。日增TB级的海量气象数据在存储、检索、传输、共享方面的时效性要求对构建在传统的IOE技术架构上气象数据管理系统提出了严峻挑战。在HBase基础上,提出了一个基于索引的气象结构化数据查询优化架构HBase4M(HBase for Meteorology)。首先,根据HBase存储特性设计表结构;然后,利用协处理器建立和维护辅助索引,将字段查询转化为对索引表的行键查询,使得HBase4M在具备HBase可扩展性、低延迟的特性上可以支持结构化气象数据的灵活查询。实验结果表明,HBase4M的性能可以基本满足气象服务的业务需要。  相似文献   

6.
随着大数据应用的不断深入,对大规模结构化/非结构化数据进行融合管理和分析的需求日益凸显.然而,结构化/非结构化数据在存储管理方式、信息获取方式、检索方式方面的差异给融合管理和分析带来了技术挑战.本文提出了适用于异构数据融合管理和语义计算的属性图扩展模型,并定义了相关属性操作符和查询语法.接着,基于智能属性图模型提出异构数据智能融合管理系统PandaDB,并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存和AI算法集成机制.性能测试和应用案例证明,PandaDB的协存机制、分布式架构和语义索引机制对大规模异构数据的即席查询和分析具有较好的性能表现,该系统可实际应用于学术图谱实体消歧与可视化等融合数据管理场景.  相似文献   

7.
一种有效的支持海量图像数据库QBE查询的聚类索引算法   总被引:2,自引:0,他引:2  
对海量图像数据进行基于内容的查询与检索有赖于高效的索引和检索机制。因此,如何将海量图像数据进行合理的分类,人而建立相应的索引机制就成为了一个亟待解决的问题。本文提出了一种有效的支持海量图像数据库QBE查询的聚类索引算法。实验在1万多幅的图像数据库上进行了反复测试,结果表明该算法可以极大地提高检索效率。  相似文献   

8.
基于HBase的气象地面分钟数据分布式存储系统   总被引:1,自引:0,他引:1  
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。  相似文献   

9.
分片位图索引:一种适用于云数据管理的辅助索引机制   总被引:3,自引:0,他引:3  
云计算技术的快速发展为海量数据的存储和管理提供了可能.然而,由于存储模型的根本改变,传统关系数据库管理系统中成熟的索引技术既不能直接应用于海量数据的处理,也无法被简单地迁移到云计算环境中.通过分析对比辅助索引在云环境中的两种截然不同的基本逻辑结构,即集中式方案与分布式方案,在吸收两者的优势并规避其弱点的基础上,提出了具有良好可扩展性的分片位图索引机制,从而对云环境中海量数据的检索任务提供高效的支持.通过充分利用云环境中的并行计算资源,使单条查询的响应速度得到提升;与此同时,局部节点根据其所掌握的全局信息规避了不必要的检索开销从而使大量请求并发到达时的查询吞吐量得以保证.在真实数据上进行实验的结果表明,分片位图索引的查询性能大大优于其它方法.  相似文献   

10.
大数据作为新的战略资源,在信息领域发挥着重要作用。大数据的检索规模往往达到十亿甚至百亿级,导致传统的查询机制效率低下成为常态。因此,提高大数据的查询效率、降低查询负担成为大数据研究的重要方面。为 此提出了一种面向批量处理的大数据检索过滤模型IMFM,介绍了其核心思想及工作原理,论证了IMFM对于多维查询的支持,并给出了IMFM的部署策略。在大数据索引结构中的适当位置部署该模型,在检索请求通过节点时对检索请求进行快速过滤,避免无关请求对节点下方索引结构的操作,从而降低检索对性能的消耗。实验证明,在大数据批量处理环境下,该模型可以有效缩短大数据一维和多维查询的路径长度,提高检索效率,大幅减轻大数据存储和处理平台的负担。  相似文献   

11.
JADLib是为满足大规模复杂结构数据的存储与共享需求而研制的科学数据I/O软件库。其目标是设计并实现管理科学计算网格数据的数据存储模型,支持多种复杂结构数据的表示与操作,应用程序接口直观、易掌握,文件格式统一、可直接可视化,提供并行I/O、数居子集访问、压缩存储等高性能存储机制,支持多类科学计算程序跨平台使用,目前已应用到惯性约束聚变、高功率微波、计算流体力学、材料科学等多个研究领域中。实际应用表明,JADLib对于解决数值模拟软件数据存储及后处理分析所面临的I/O效率与组织管理问题具有很好的应用效果。  相似文献   

12.
13.
With the development of big data application, the demand of large-scale structured/unstructured data fusion management and analysis is becoming increasingly prominent. However, the differences in management, process, retrieval of structured/unstructured data brings challenges for fusion management and analysis. This study proposes an extended property graph model for heterogeneous data fusion management and semantic computing, and defines related property operators and query syntax. Based on the intelligent property graph model, this study implements PandaDB, an intelligent fusion management system for heterogeneous data. This study depicts the architecture, storage mechanism, query mechanism, property co-storage, AI algorithm scheduling, and distributed architecture of PandaDB. Test experiments and cases show that the co-storage mechanism and distributed architecture of PandaDB have good performance acceleration effects, and can be applied in some scenarios of fusion data intelligent management such as entity disambiguation of academic knowledge graph.  相似文献   

14.
Starting with the birth of Web 2.0, the quantity of data managed by large-scale web services has grown exponentially, posing new challenges and infrastructure requirements. This has led to new programming paradigms and architectural choices, such as map-reduce and NoSQL databases, which constitute two of the main peculiarities of the specialized massively distributed systems referred to as Big Data architectures. The underlying computer infrastructures usually face complexity requirements, resulting from the need for efficiency and speed in computing over huge evolving data sets. This is achieved by taking advantage from the features of new technologies, such as the automatic scaling and replica provisioning of Cloud environments. Although performances are a key issue for the considered applications, few performance evaluation results are currently available in this field. In this work we focus on investigating how a Big Data application designer can evaluate the performances of applications exploiting the Apache Hive query language for NoSQL databases, built over a Apache Hadoop map-reduce infrastructure.This paper presents a dedicated modeling language and an application, showing first how it is possible to ease the modeling process and second how the semantic gap between modeling logic and the domain can be reduced, by means of vertical multiformalism modeling.  相似文献   

15.
针对传统电子政务平台所采用的关系型数据库在存储非结构化数据时的缺陷,利用MongoDB存储海量非结构化数据的优势,提出MongoDB与MySQL混合存储的策略。MongoDB负责存储图片、视频等非结构化数据,MySQL负责存储用户注册信息、工资表等结构化数据。二者协同提供政务数据的云存储服务和查询操作,从而降低MySQL数据库服务器的负载,节约MySQL的存储空间,增强电子政务后台数据库的扩展性。实验结果表明,该混合策略能大大提高电子政务平台的查询效率。  相似文献   

16.
随着大数据时代的到来,传统的计算机因为单机资源有限、运行速度慢、分布式处理支持差,已满足不了现行的医疗体系中的大数据处理需求,基于时空数据的移动医疗呼叫系统方法可以很好地解决这些问题。在移动云计算环境下研究[k]最近邻查询算法是当前一个热点问题,支持可扩展和分布式的空间数据索引对于kNN查询的效率影响很大,目前已有的查询算法不适合并行化或者会导致内容冗余。将MapReduce分布式处理技术与空间kNN查询方法相结合,设计可以快速检索到满足用户查询需求的医生位置信息的移动医疗呼叫算法。提出并构建了一个新的分布式空间数据索引方法:倒排Voronoi图索引,它将倒排索引和Voronoi图索引进行结合;提出了一种基于MapReduce的利用Voronoi图来处理kNN查询的高效算法,其在分布式环境下可以有效提高查询效率;用真实的和仿真的数据集来进行大量实验评估,实验结果表明所提出的方法具有良好的高效性和可扩展性。  相似文献   

17.
Query optimization in Big Data becomes a promising research direction due to the popularity of massive data analytical systems such as Hadoop system. The query optimization is getting hard to efficiently execute JOIN queries on top of Hadoop query language, Hive, over limited Big Data storages. According to our previous work, HiveQL Optimization for JOIN query over Multi-session Environment (HOME) system has been introduced over Hadoop system to improve its performance by storing the intermediate results to avoid repeated computations. Time overheads and Big Data storages limitation are considered the main drawback of the HOME system, especially in the case of using additional physical storages or renting extra virtualized storages. In this paper, an index-based system for reusing data called indexing HiveQL Optimization for JOIN over Multi-session Big Data Environment (iHOME) is proposed to overcome HOME overheads by storing only the indexes of the joined rows instead of storing the full intermediate results directly. Moreover, the proposed iHOME system addresses eight cases of JOIN queries which classified into three groups; Similar-to-iHOME, Compute-on-iHOME, and Filter-of-iHOME. According to the experimental results of the iHOME system using TPC-H benchmark, it is found that the execution time of eight JOIN queries using iHOME on Hive has been reduced. Also, the stored data size in the iHOME system is reduced relative to the HOME system, as well as, the Big Data storage is saved. So, by increasing stored data size, the iHOME system guarantees the space scalability and overcomes the storage limitation.  相似文献   

18.
大数据时代,数据规模庞大、数据管理应用场景复杂,传统数据库和数据管理技术面临很大的挑战.人工智能技术因其强大的学习、推理、规划能力,为数据库系统提供了新的发展机遇.人工智能赋能的数据库系统通过对数据分布、查询负载、性能表现等特征进行建模和学习,自动地进行查询负载预测、数据库配置参数调优、数据分区、索引维护、查询优化、查询调度等,以不断提高数据库针对特定硬件、数据和负载的性能.同时,一些机器学习模型可以替代数据库系统中的部分组件,有效减少开销,如学习型索引结构等.分析了人工智能赋能的数据管理新技术的研究进展,总结了现有方法的问题和解决思路,并对未来研究方向进行了展望.  相似文献   

19.
基于数据仓库的JMS中数据管理方法的研究   总被引:1,自引:0,他引:1  
张小芳  古清月 《计算机工程与设计》2007,28(5):1189-1192,1201
在分析JMS数据管理的目标的基础上,重点研究了系统数据和用户数据的管理模型.对系统数据,重点研究了集群配置数据和日志数据的管理方法,提出使用OGSA的分布式消息结构来管理JMS中的分布式日志.对用户数据,研究了作业和作业网络及其实例的数据管理以及用户数据传输方法,提出了使用数据仓库来分析作业执行历史,设计了JMS的数据仓库模式,该模式能满足用户的多种查询和分析要求.有效地解决了JMS中的数据存储、查询、分析和共享等问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号