首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
随着Web2.0的到来,互联网数据快速增长。大规模数据的采集和处理及应用直接影响着用户体验,决定着企业的发展。比较传统关系型数据库和分布式非关系型数据库两者处理大数据的性能,将本地数据迁移到分布式数据库势在必行。文章分析了现有迁移工具的利弊,基于HBase数据库提出了一种有效的数据迁移策略,并依据提出的策略实现了一种半自动化迁移工具。以美国城市和方言系统CityDetail数据库数据为例,阐述了该迁移工具的工作原理并对迁移后的数据进行多次查询比较,证明了使用该工具进行数据迁移的高效性。  相似文献   

2.
针对传统电子政务平台所采用的关系型数据库在处理海量数据时存在性能瓶颈问题,利用Hadoop分布式平台在处理海量数据方面的优势,结合HDFS分布式文件系统、Map/Reduce并行计算模型和Hive仓库技术,设计关系型数据库与Hadoop相结合的电子政务云平台,两者协同提供海量数据查询操作和存储服务,从而降低了关系型数据库服务器的负载压力,增强电子政务平台的扩展性。通过实验证明,Hadoop能大大提高电子政务云平台的查询效率。进一步分析该设计方案中影响查询效率的因素,为深入研究基于Hadoop构建高效的电子政务云提供参考。  相似文献   

3.
分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力.  相似文献   

4.
现有的金融行业的数据管理模式主要依赖于传统关系型数据库,然而传统架构受到拓展能力和存储性能的限制,难以满足大数据时代快速增长的海量数据量处理的需要。针对金融数据规模大、跨地域、跨系统存储、数据多样化等特点,提出了HiETL大数据迁移管理平台,实现了异构关系型数据库业务系统向Hadoop大数据平台的统一迁移,以及海量数据的集中整合、拓展存储、高效分析查询等一站式管理平台,在保证迁移准确的情况下,其速度可达到3?MB/s。  相似文献   

5.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

6.
分布式数据库能够以相对低廉的代价满足海量数据分析处理的性能需求,兼具良好的可扩展性.文中采用Shared-Nothing架构及MySQL数据库来实现分布式数据库访问层的功能架构及模块设计,提出了使用列存储机制提升分布式数据库系统查询性能的思路,包括数据存储的方法及策略.对所设计实现的系统进行了基准性能测试及扩展性能测试,结果表明,文中所实现系统相较传统列式数据库具有出色的查询性能表现,同时具有优秀的可扩展性,能够以较低的代价满足海量数据分析处理所带来的额外数据库性能提升要求.  相似文献   

7.
大数据环境下,磁盘数据库存在高并发I/O瓶颈,磁盘数据内存化是解决传统关系型磁盘数据库I/O瓶颈的有效方案。已有的内存化技术存在数据丢失、配置复杂等问题。基于内存数据库Redis,以典型开源关系型数据库MySQL为例,提出一种解决关系型数据库磁盘I/O瓶颈的轻量级内存化解决方案,实现MySQL的内存化存储。同时构建行式键值(RB-KVM)和分段列式键值交叉(PCB-KVCM)存储转换模型,实现异构数据库存储模型的转换和自动化数据迁移。通过分析对比,RB-KVM数据存取效率更高,而PCB-KVCM具有更高的内存利用率且在时间开销上优于RB-KVM。通过实际运行分析,该技术不仅提高了数据库在高并发场景下的吞吐能力,实现了海量热点数据的高效存取,在实际应用中也更加快捷,实施成本更低。  相似文献   

8.
为了解决海量医药电商数据的高效存储,使海量的医药电商数据得到高效利用,为医药数据挖掘提供基础服务等问题,这里提出了一种基于分布式存储技术来进行存储海量医药电商数据的方法,利用HBase分布式数据库技术,构建了一个基于Hadoop的海量数据存储系统。本系统采用了批量读写多线程并发的策略、预分区策略、Row Key设计与优化策略等,有效解决了热点存储问题和高并发时带来的系统性能下降的问题,系统功能模块的开发证明该系统具有较好的稳定性和可扩展性。  相似文献   

9.
龙源  郑彦 《微机发展》2012,(10):79-82
分布式数据库能够以相对低廉的代价满足海量数据分析处理的性能需求,兼具良好的可扩展性。文中采用Shared—Nothing架构及MySQL数据库来实现分布式数据库访问层的功能架构及模块设计,提出了使用列存储机制提升分布式数据库系统查询性能的思路,包括数据存储的方法及策略。对所设计实现的系统进行了基准性能:侧试及扩展性能测试,结果表明,文中所实现系统相较传统列式数据库具有出色的查询性能表现,同时具有优秀的可扩展性,能够以较低的代价满足海量数据分析处理所带来的额外数据库性能提升要求。  相似文献   

10.
自动站观测数据在气象业务和科研工作中具有重要的价值,经过多年的发展,气象部门积累了大量的自动站观测数据,现有的传统关系型数据库无法满足对历史自动站数据的快速查询与分析.基于对HBase分布式数据库的研究,建立了自动站数据在HBase数据库中的表结构,完成了自动站历史数据的批量入库,实现了历史数据的快速查询和导出功能,满足了科研人员的业务需求.  相似文献   

11.
鉴于单节点数据库审计系统检索性能低下的现状,探讨应用Hadoop伪分布模式和HBase列存储模型重构数据库审计系统的检索存储体系,重点研究HDFS存储机制、MapReduce运算框架和HBase数据模型三者的集成,以提升数据库审计系统实时检索和综合分析的性能.重构方案有效提升了检索性能,但鉴于数据的高可靠性和大体积,提出结合生产现状应用Hadoop和HBase分布式集群的展望.  相似文献   

12.
针对传统平台运行Apriori算法来挖掘中医病案中用药组合规律时,存在着占用内存空间大、计算效率低和PB级数据无法处理等问题,提出基于Hadoop的中医哮喘用药组合关联分析方法。采用Mapreduce分布式计算框架和HBase分布式数据库优化Apriori算法性能:一方面使用Mapreduce计算框架并行处理数据,借助HBase高速读写数据的特性,加速频繁项集的产生;另一方面摒弃传统算法中的自连接产生候选项集方式,对每个节点上的数据,使用循环和递归相结合的方式产生候选集,提高候选集产生的效率。实验结果证明,借助基于Hadoop的中医哮喘用药组合关联分析方法挖掘中医药组合规律,效率更高,能更有效地指导临床实践。  相似文献   

13.
为解决关系型数据库在大数据处理中遇到的瓶颈问题,满足企业对大数据处理的需求,提出将关系型数据库迁移到NoSQL文档型数据库中。针对RDBMS中的关系模型向MongoDB中的集合模型转化方法进行了研究,提出了表示关系间参照完整性的有向图表示模型,和基于关系型数据模型向MongoDB文档模型自动转化算法;实现了RDBMS中迁移数据到MongoDB的插入算法。针对上述方案和算法,结合典型开源RDBMS--MySQL实例,对上述关系有向图模型的生成、基于有向图模型的转化算法以及数据迁移算法应用验证。实验结果表明RDBMS可以按照一定的数据结构平滑地迁移到MongoDB中。  相似文献   

14.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地...  相似文献   

15.
融合通信是当今计算机应用领域研究热点之一,人们对融合通信系统中应用服务的要求也越来越高.在数据存取方面,基于传统关系型数据库或者基于传统文件系统的存储方式已经越来越不能满足应用的需求.随着Hadoop技术以及相关子系统的发展,分布式存储的优势日渐明显.因此,本文在分析HBase、Hive各自特点及其体系结构的基础上,结合融合通信具体项目提出了基于HBase-Hive集成设计的存储引擎设计方法,以此来解决融合通信系统中数据安全性、数据获取效率等方面不满足的情况.通过对比实验表明,该设计方案提高系统数据查询获取效率,也为后续数据挖掘方面的开发做好准备.  相似文献   

16.
为解决传统关系数据库存储QAR数据可扩展性低、可用性差的问题,设计一种基于HBase的QAR数据分布式存储方法。根据QAR数据的特点,设计HBase表结构,将QAR参数划分为安全、航迹、燃油、发动机、预测、飞行员操作及其它共七大主题,构建基于航班号、航班日期、参数主题三者组合的MD5散列值行键结构,根据行键散列值对QAR数据值表预分区,通过行键散列机制和预分区技术相结合的两级优化策略实现QAR数据文件分布式存储。真实QAR数据集上的实验结果表明,该QAR数据存储模式能使数据均衡分布在集群中,避免了写热点和数据倾斜问题,有较高的存取性能。  相似文献   

17.
随着人民生活水平的不断提高,肿瘤疾病的人数在不断增多,其中肺癌是21世纪严重危害人类健康的重大疾病。面向肺癌电子病历如此庞大的数据量时,传统Apriori算法的串行计算方式需要频繁扫描数据库,会消耗巨大的内存占用量。对此,提出一种基于改进Apriori算法的肺癌风险评估因素分析的方法。运用Hadoop平台实现并行Apriori算法的优化,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,最后给出基于Hadoop平台和MapReduce分布式计算模型的执行流程和测试结果。实验结果表明,改进算法在处理大数据及时有较好的执行效率以及良好的可扩展性,得出了肺癌的疾病模式与致病因素之间的隐匿规则,从而验证了改进后的Apriori算法对于辅助肺癌临床实验具有重要的意义。  相似文献   

18.
As data exploration has increased rapidly in recent years, the datastore and data processing are getting more and more attention in extracting important information. To find a scalable solution to process the large-scale data is a critical issue in either the relational database system or the emerging NoSQL database. With the inherent scalability and fault tolerance of Hadoop, MapReduce is attractive to process the massive data in parallel. Most of previous researches focus on developing the SQL or SQL-like queries translator with the Hadoop distributed file system. However, it could be difficult to update data frequently in such file system. Therefore, we need a flexible datastore as HBase not only to place the data over a scale-out storage system, but also to manipulate the changeable data in a transparent way. However, the HBase interface is not friendly enough for most users. A GUI composed of SQL client application and database connection to HBase will ease the learning curve. In this paper, we propose the JackHare framework with SQL query compiler, JDBC driver and a systematical method using MapReduce framework for processing the unstructured data in HBase. After importing the JDBC driver to a SQL client GUI, we can exploit the HBase as the underlying datastore to execute the ANSI-SQL queries. Experimental results show that our approaches can perform well with efficiency and scalability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号