首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
随着建筑信息模型的规模和复杂性不断增加,利用单台计算机处理海量BIM数据的存储和分析变得越来越困难。传统的关系数据库、面向对象数据库等已经无法满足当下建筑业海量和多样化的数据存储和管理的需求。而大数据技术的出现为建筑信息模型海量数据的存储、管理和分析带来极大的潜力。利用大数据技术管理BIM结构化和非结构化数据的优势,探讨分布式大数据平台Hadoop和HBase数据库整体架构和存储模型;制定基于HBase数据库存储IFC(工业基础类)结构化数据和非结构化数据的策略及数据表格的设计;建立基于Hadoop和HBase大数据环境的建筑信息模型存储系统,实现对IFC数据的基本管理操作。通过实际案例验证该系统的可行性。  相似文献   

2.
随着计算机科学的发展和大数据时代的到来,应用系统已经出现了数据海量化、用户访问高量化的局面,使得企业应用系统的原有关系型数据库(RDBMS)面临承担更大负荷的压力,系统的高性能要求得不到有效满足,对于关系型数据库所面临的问题,Hadoop平台中的HBase数据库可有效解决。以关系型数据库中MySQL数据库及Hadoop平台中分布式数据库HBase数据库为研究基础,应对企业应用数据海量化增长,提出从关系型数据库(MySQL数据库)向分布式数据库(HBase数据库)进行数据迁移的方法,并通过研究HBase数据库存储原理提出从MySQL到HBase的表模式转换原则实现高效数据查询性能的数据迁移方法。最后,将该方法与同类数据迁移工具Sqoop进行比较,证明该方法进行数据迁移的便捷性和在迁移后数据库中进行连接查询的高效性。  相似文献   

3.
随着信息技术的快速发展,数据量在以指数级飞速增长的同时数据类型也越来越多样化,传统的关系型数据库已不能满足日常数据存储的需求,因此如何实现海量多样化数据的存储和检索成为急需解决的问题。根据上述问题,文中对基于列式存储的HBase数据库的发展和技术原理进行大量调研,得出HBase数据库不但能够有效处理海量数据还可以实现更快速的检索。文中针对HBase的架构和列式存储模型进行检索效率和适用场景的研究,并通过实验验证得出当数据量和返回结果集达到一定数量时,使用HBase数据库的响应时间比传统数据库快得多。  相似文献   

4.
信息化时代,数据增长迅速,形式多样,数据的存储安全和高效处理问题备受关注,传统的关系数据库因其单表架构和行存储特点读写速度慢、扩展性较差,难以适应大数据的存储。关系与非关系数据库的融合技术应运而生。文中提出一种面向隐私保护的异构数据库集成中间件系统,虚拟化集成关系与非关系数据库。该中间件系统通过明密文数据库的整体映射,实现对隐私数据的保护,且其加解密过程对上层应用透明;通过提供通用的基于标准的体系结构,实现允许用户以SQL语句统一操作密文数据库和非关系数据库。仿真结果表明,该中间件系统中密文数据库保证了数据的安全性,关系与非关系数据库的融合可以存储和处理海量数据,SQL统一操作的标准化框架提高了系统的扩展性和应用范围。  相似文献   

5.
《软件》2016,(11):64-67
随着大数据时代的到来,海量数据对传统数据库技术提出了存储和检索性能的挑战。HBase是开源No SQL数据库,适合于各种非结构化和半结构化的松散数据的存储和管理,目前已经被很多大型企业用于处理海量数据。它基于rowkey的有序存储,对rowkey支持毫秒级的快速检索。然而,随着HBase应用的不断深入,单一的通过rowkey检索数据的方式不再满足需求,在实际应用中,经常需要根据指定字段,或者几个字段进行组合检索。针对该问题,本文提出了一种基于Redis创建HBase二级索引的方法,使得在实际应用中,支持多条件查询,提升查询的效率和性能。  相似文献   

6.
海量气象观、探测数据是提高公共气象服务精细化、精准化和个性化水平的关键。日增TB级的海量气象数据在存储、检索、传输、共享方面的时效性要求对构建在传统的IOE技术架构上气象数据管理系统提出了严峻挑战。在HBase基础上,提出了一个基于索引的气象结构化数据查询优化架构HBase4M(HBase for Meteorology)。首先,根据HBase存储特性设计表结构;然后,利用协处理器建立和维护辅助索引,将字段查询转化为对索引表的行键查询,使得HBase4M在具备HBase可扩展性、低延迟的特性上可以支持结构化气象数据的灵活查询。实验结果表明,HBase4M的性能可以基本满足气象服务的业务需要。  相似文献   

7.
为了实现对海量数据的高效存储和查询,众多NoSQL数据库被开发出来,HBase是其中之一。但原生的HBase数据库在进行数据查询时只支持主键索引,对非主键数据只能通过全表扫描的方式进行查询,极大降低了HBase的多条件查询速度。为此,提出了基于协处理器的HBase内存索引构建方案,通过协处理器实现对二级索引的快速构建并可根据HBase表的变化自动更新索引。同时,将建立的索引进行持久化操作,在使用时通过内存计算,极大地提高了索引数据检索速度,保证了索引的可用性和容错性。实验结果表明,该方案相比原生数据库的条件检索速度有了极大提升,相比于基于Solr和HiBase的二级索引方案检索速度也有所提升。  相似文献   

8.
信息系统支撑的业务量非常大的情况下,从数据量及查询要求来看首选HBase。HBase是一个分布式、面向列的数据库,适合存储非结构化数据,在现今大数据时代得到了广泛的应用。基于此,介绍HBase数据库中行键的主要特点,以Warehose数据表为例,分析行键如何设计,考虑到HBase的负载均衡现象,分析可能出现的热点问题并提出通过加盐、Hash散列、反转三种方式进行防治。  相似文献   

9.
王立峰 《数字社区&智能家居》2014,(23):5401-5402,5414
在云计算和大数据时代,电子商务、移动互联网以及各种智能终端的兴起,产生了大量的数据,其中图片、视频等在社交领域经常使用的数据都是非结构化的,所以无法用传统的数据存储技术进行存储。HBase是一种适合存储大对象的非结构化数据库,该文对HBase数据库存储大对象的技术进行分析,以为大对象存储提供经验。  相似文献   

10.
分析了风电监控系统对海量数据的存储和访问需求,提出了引入时序数据库技术来解决传统数据库在处理海量数据时碰到的存储容量和访问效率方面的问题.所采用的时序数据库和关系数据库相结合的解决方案,在满足海量数据存储和访问需求的同时,很好地解决了数据模型的描述和存储问题.介绍了基于时序数据库开发的一些风电高级应用.  相似文献   

11.
在互联网和大数据时代下,SQL关系型数据库已不能适应与日俱增的数据量,HBase等NoSQL数据库变得极为重要。但HBase数据库操作较为复杂,本文设计并实现基于SQL的HBase查询,可以使HBase的使用者通过熟悉的SQL查询语句操作HBase数据库。首先构建SQL语言的编译器,将SQL语句转化成语法树,再将语法树转化为HBase的相关操作。使用协处理器处理SQL查询语句中的聚合函数和复杂表达式,并可以使用连接查询。  相似文献   

12.
随着语义网数据规模的爆炸式增长,海量数据存储和检索面临越来越严峻的挑战,分布式数据库与并行计算已成为其主要解决方案。基于列存储分布式数据库HBase设计了一种多表语义网数据存储模型,实现从OWL本体定义到存储模型的映射。基于OWL本体定义信息对语义网数据实现按类划分,并将三元组存储于主体所属于的类的两张表里,采用MapReduce框架实现并行的数据划分和加载任务,最后在Hadoop集群环境下对方法进行了可行性验证。  相似文献   

13.
Current information technologies generate large amounts of data for management or further analysis, storing it in NoSQL databases which provide horizontal scaling and high performance, supporting many read/write operations per second. NoSQL column-oriented databases, such as Cassandra and HBase, are usually modelled following a query-driven approach, resulting in denormalized databases where the same data can be repeated in several tables. Therefore, maintaining data integrity relies on client applications to ensure that, for data changes that occur, the affected tables will be appropriately updated. We devise a method called MDICA that, given a data insertion at a conceptual level, determines the required actions to maintain database integrity in column-oriented databases. This method is implemented for Cassandra database applications. MDICA is based on the definition of (1) rules to determine the tables that will be impacted by the insertion, (2) procedures to generate the statements to ensure data integrity and (3) messages to warn the user about errors or potential problems. This method helps developers in two ways: generating the statements needed to maintain data integrity and producing messages to avoid problems such as loss of information, redundant repeated data or gaps of information in tables.  相似文献   

14.
为解决传统关系数据库存储QAR数据可扩展性低、可用性差的问题,设计一种基于HBase的QAR数据分布式存储方法。根据QAR数据的特点,设计HBase表结构,将QAR参数划分为安全、航迹、燃油、发动机、预测、飞行员操作及其它共七大主题,构建基于航班号、航班日期、参数主题三者组合的MD5散列值行键结构,根据行键散列值对QAR数据值表预分区,通过行键散列机制和预分区技术相结合的两级优化策略实现QAR数据文件分布式存储。真实QAR数据集上的实验结果表明,该QAR数据存储模式能使数据均衡分布在集群中,避免了写热点和数据倾斜问题,有较高的存取性能。  相似文献   

15.
分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力.  相似文献   

16.
HBase(HadoopDataBase)是ApacheHadoop项目下的一款非关系型数据库,它是一个基于列簇的开源数据存储系统,关于HBase的研究和应用越来越受到关注.由于HBase会在内存缓存数据后写文件系统,所以缓存的大小成为影响系统性能的一个重要因素.本文提出一种基于备份日志的持久性、可用性方案RemoteLogProcess,使得HBase能够在不同的缓存规模获得更好的写性能.实验证明,在保证数据的持久性和可用性前提下,RLP能够在不同的缓存大小下获得稳定的性能,并且在缓存不超过默认设置时明显提高写操作时间性能.  相似文献   

17.
实际工程中采集和处理的数据量特别大,这对传统数据库技术提出巨大挑战。针对传统关系型数据库存储速度慢、对硬件要求高的缺点,提出一种以NoSQL数据库为基础的大数据处理方法,打破了传统数据库的关系模型,数据以一种自由的方式存储,而不依赖固定的表结构。该方法主要是将经验模态分解并与NoSQL数据库技术相结合,应用于大型结构件的变形监测中,构建出一个基于NoSQL数据库系统的大型结构件变形监测系统。仿真结果表明,该方法可以实现大型结构件变形监测数据的实时处理,在计算收敛性、算法稳定性和处理速度上都优于传统数据库技术。  相似文献   

18.
Wide-column NoSQL databases are an important class of NoSQL (Not only SQL) databases which scale horizontally and feature high access performance on sparse tables. With current trends towards big Data Warehouses (DWs), it is attractive to run existing business intelligence/data warehousing applications on higher volumes of data in wide-column NoSQL databases for low latency by mapping multidimensional models to wide-column NoSQL models or using additional SQL add-ons. For examples, applications like retail management can run over integrated data sets stored in big DWs or in the cloud to capture current item-selling trends. Many of these systems also employ Snapshot Isolation (SI) as a concurrency control mechanism to achieve high throughput for read-heavy workloads. SI works well in a DW environment, as analytical queries can now work on (consistent) snapshots and are not impacted by concurrent update jobs performed by online incremental Extract-Transform-Load (ETL) flows that refresh fact/dimension tables. However, the snapshot made available in the DW is often stale, since at the moment when an analytical query is issued, the source updates (e.g. in a remote retail store) may not have been extracted and processed by the ETL process in time due to high input data volume or slow processing speed. This staleness may cause incorrect results for time-critical decision support queries. To address this problem, snapshots which are supposed to be accessed by analytical queries need to be first maintained by corresponding ETL flows to reflect source updates based on given freshness needs. Snapshot maintenance in this work means maintaining the distributed data partitions that are required by a query. Since most NoSQL databases are not ACID compliant and do not provide full-fledged distributed transaction support, snapshot may be inconsistently derived when its data partitions are updated by different ETL maintenance jobs.This paper describes an extended version of HBelt system [1] which tightly integrates the wide-column NoSQL database HBase with a clustered & pipelined ETL engine. Our objective is to efficiently refresh HBase tables with remote source updates while a consistent snapshot is guaranteed across distributed partitions for each scan request in analytical queries. A consistency model is defined and implemented to address so-called distributed snapshot maintenance. To achieve this, ETL jobs and analytical queries are scheduled in a distributed processing environment. In addition, a partitioned, incremental ETL pipeline is introduced to increase the performance of ETL (update) jobs. We validate the efficiency gain in terms of data pipelining and data partitioning using the TPC-DS benchmark, which simulates a modern decision support system for a retail product supplier. Experimental results show that high query throughput can be achieved in HBelt when distributed, refreshed snapshots are demanded.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号