首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
分布式存储系统HBase关键技术研究   总被引:1,自引:0,他引:1  
张智  龚宇 《现代计算机》2014,(11):33-37
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。  相似文献   

2.
随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的"快速并行导入"技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上层数据导入时间的浪费,又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明,在"快速并行导入"技术的基础上设计并实现的快速并行导入工具,支持多列族文本数据的快速导入。与传统使用API导入数据相比,速度提升一倍以上。  相似文献   

3.
高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘应用。由此,设计高效的数据结构、存储及访问机制,快速挑选出有意义的物理事例十分重要。介绍事例的数据结构、存储和处理技术,分析高能物理数据的特点,提出一种以HBase,ROOT,BEAN及MapReduce为基础的新型高能物理数据存储及处理技术系统。利用HBase存储数据、MapReduce实现并行处理,选择ROOT和BEAN作为高能物理分析框架,并给出具体设计与实现方案。测试结果表明,与传统高能物理数据存储系统相比,该系统具有更快的数据处理速度,当预筛选服务生效时能够更加有效地利用I/O和CPU资源。  相似文献   

4.
基于HBase的气象地面分钟数据分布式存储系统   总被引:1,自引:0,他引:1  
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。  相似文献   

5.
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。  相似文献   

6.
本体是对某一特定领域的重要概念的形式化描述。合理地存储本体数据是发挥其共享性的重要前提,尤其是在当前分布式系统下其作用更为突出。通过分析 目前的各种存储方式,并结合当前语义网、Hadoop的特点,提出了基于HBase的本体存储模型HBase-OntSM,该模型将本体的三元组数据集作为一个图,把图作为一条记录存储到数据库中;并给出了与该图相关的一系列基本定义和索引定义。最后以西藏文化本体中的一个片段为例,解释了该本体存储模型及其存储过程。  相似文献   

7.
自动站观测数据在气象业务和科研工作中具有重要的价值,经过多年的发展,气象部门积累了大量的自动站观测数据,现有的传统关系型数据库无法满足对历史自动站数据的快速查询与分析.基于对HBase分布式数据库的研究,建立了自动站数据在HBase数据库中的表结构,完成了自动站历史数据的批量入库,实现了历史数据的快速查询和导出功能,满足了科研人员的业务需求.  相似文献   

8.
基于HBase的大规模无线传感网络数据存储系统   总被引:1,自引:0,他引:1  
陈庆奎  周利珍 《计算机应用》2012,32(7):1920-1923
无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据。针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统。实验结果证明,该系统有良好的扩展性、存储和查询效率。  相似文献   

9.
面向农业科学数据的分布式存储方法研究   总被引:1,自引:0,他引:1  
随着农业科技的飞速发展,农业科学数据以几何级数快速膨胀。面对持续增长的农业数据资源,如何有效地存储和管理海量的农业数据成为一个研究热点。借助Hadoop分布式存储框架的优势,提出了一种面向农业科学数据的分布式存储方法,该方法采用了“中心控制节点--数据节点”的存储体系,通过报文通信技术和混合式索引分布策略,实现了对海量数据的高并发式存储和检索。实验结果证明,该方法适用于各种类型的农业科学数据进行存储管理。  相似文献   

10.
遥感影像的存储与查询是地理信息处理中重要的内容,在海量遥感影像的实时处理中发挥着重要作用。针对传统的遥感影像处理中存在单节点故障、扩展性低和处理效率低等问题,提出了一种基于HBase的遥感数据分布式存储与查询方案。该方法首先采用均匀网格对遥感影像进行划分,并根据划分结果设计了一种基于网格ID和Hilbert曲线相结合的索引方案。然后,通过利用HBase的过滤机制设计了过滤列族,达到了在查询时筛选数据的目的。另外,采用MapReduce的并行处理方法对影像数据进行并行写入和查询。实验结果表明,与MySQL和MapFile相比,该方法可以有效地提高数据的写入和查询速度,且具有较好的可扩展性。  相似文献   

11.
云计算技术基于这样一种思想——将大量计算资源组织起来进行统一调度,形成一个计算资源池,向用户提供按需计算的服务。数据共享技术可以在集成各种资源时,在系统各组成部分间共享数据,提高系统的协作能力。该文研究了数据共享的关键技术,并深入分析当前主要的数据共享模型,和HBase数据共享模型。  相似文献   

12.
随着气象数据规模和种类的不断增长,气象数据已经逐渐进入海量服务阶段,而基于大数据背景提供更敏捷的数据服务已经成为业务发展的迫切需求.本文针对气象中的半/非结构化数据,提出基于HBase系统的负载平衡算法和策略.在实际测试对比中发现,系统可以满足200多万个格点,100个并发的场景,查询速度在2 s以内,与未曾增加负载平...  相似文献   

13.
Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。  相似文献   

14.
随着计算机科学的发展和大数据时代的到来,应用系统已经出现了数据海量化、用户访问高量化的局面,使得企业应用系统的原有关系型数据库(RDBMS)面临承担更大负荷的压力,系统的高性能要求得不到有效满足,对于关系型数据库所面临的问题,Hadoop平台中的HBase数据库可有效解决。以关系型数据库中MySQL数据库及Hadoop平台中分布式数据库HBase数据库为研究基础,应对企业应用数据海量化增长,提出从关系型数据库(MySQL数据库)向分布式数据库(HBase数据库)进行数据迁移的方法,并通过研究HBase数据库存储原理提出从MySQL到HBase的表模式转换原则实现高效数据查询性能的数据迁移方法。最后,将该方法与同类数据迁移工具Sqoop进行比较,证明该方法进行数据迁移的便捷性和在迁移后数据库中进行连接查询的高效性。  相似文献   

15.
云计算下的海量数据挖掘研究   总被引:6,自引:0,他引:6  
王鄂  李铭 《现代计算机》2009,(11):22-25,50
云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。在介绍基于云计算的Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上。详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程.并利用分析出的决策树模型对输入数据进行分类。  相似文献   

16.
应毅  任凯  刘亚军 《计算机科学》2018,45(Z11):353-355
传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案:由多台计算机完成日志文件的存储、分析、挖掘工作,建立了一个基于Hadoop开源框架的并行网络日志分析引擎,在MapReduce模型下重新实现了IP统计算法和异常检测算法。实验证明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和增加系统的可扩展性。  相似文献   

17.
针对海量空间矢量数据分布式存储与计算需求,研究了基于四叉树格网编码建立要素索引的方法,设计了HBase预分区优化策略,提出了一种空间矢量数据分布式存储模型.基于MapReduce计算框架,构建了空间数据分布式计算与分析的优化流程.最后,针对空间叠加与统计场景,采用一定规模的业务数据对所提的方法进行测试,验证了设计方案的可行性和有效性.  相似文献   

18.
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块,同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块,如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明,得到的回归系数,能准确的对测试样本进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号