共查询到20条相似文献,搜索用时 78 毫秒
1.
针对海量数据分布式序列数据量大、增长速度快、序列重复性高等特点,结合HBase分布式数据库的相关理论和技术提出并实现了一套基于HBase的海量数据分布式序列存储方案。该方案设计了基于分布式数据分类码的预分区和行键优化策略,解决了服务器的均衡负载问题。通过构造文件索引替代二进制码序列实现了数据的高效存取。利用HBase协处理器实现了分布式序列记录单次提交多表插入的功能,提升了分布式多格式存储的效率。实验表明,通过上述方案设计的分布式序列存储系统具有良好的存储能力和扩展性。 相似文献
2.
随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战。针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法。首先,对传统地形数据管理方式和基于HBase的数据存储国内外研究现状进行了综述;然后,在基于四叉树对全球数据进行组织的基础上,提出了四叉树和Hilbert编码相结合的设计思想;其次,设计了根据经纬度求地形数据的行列号和根据行列号计算Hilbert编码的算法;最后,对设计的索引的物理存储结构进行了设计。实验结果表明,利用设计的索引进行海量地形数据入库,数据入库速度与单机情况相比,提高了63.79%~78.45%;在地形数据的范围查询中,设计的索引与传统的行序索引相比,查询时间降低了16.13%~39.68%。查询速度最低为14.71 MB/s,可以满足地形数据显示的要求。 相似文献
3.
基于HBase的气象地面分钟数据分布式存储系统 总被引:1,自引:0,他引:1
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。 相似文献
4.
5.
本文主要是针对关系型数据库的信息管理系统在处理海量数据的存储与检索方面的一些可选方案进行探讨与分析,并结合实际应用,分别从分布式数据存储、动态表、索引、查询语句优化等4个方面对海量数据的存储与检索给出可行的优化配置解决方案。 相似文献
6.
7.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及... 相似文献
8.
9.
海量结构化数据存储检索系统 总被引:4,自引:0,他引:4
Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合. 相似文献
10.
当前,随着大数据的发展,数据包含的价值越来越丰富,如何对海量的数据实现毫秒级的关键字检索越来越被各个信息化系统所需要。因此,文中基于Elasticsearch作为框架,通过知识库检索引擎技术研究及应用实现,形成一套具备海量数据存储、自定义知识库接入、高效全文检索等特点的分布式全文搜索引擎系统解决上述问题。 相似文献
11.
12.
13.
为提高监控自动气象站数据接收、发送情况,组织用VC++6.0研发并安装自动气象站数据监控系统。通过自动监控,能够监测到气象数据接收、发送情况,提高自动气象站数据监控及时性。 相似文献
14.
随着云计算的发展,云存储技术通过集群应用、虚拟化技术、分布式文件系统等功能将网络中大量各种不同类型的存储设备集合起来协同工作,缓解了老式数据中心的存储压力.另外,重复数据删除技术是一种缩减存储空间减少网络传输量的技术,随着云的广泛应用也势必会发展应用于云存储中.这两种技术结合将会给IT存储业带来实际效益.本文通过研究重复数据删除技术、云存储技术,设计了基于云存储的重复数据删除架构,提出了一种用In-line方式在客户端进行数据块级与字节级相结合的重复数据删除操作后再将数据存入云中的方案.在本架构下,海量数据存储在HDFS中;而文件数据块的哈希值存储在HBase中. 相似文献
15.
针对当前气象探测设备运行监控的重要性,文章对自动气象站监控技术进行了研究;首先结合XML站点信息文件从中心站服务器中获取自动气象站当前整点小时数据与缺测站点信息;然后对数据进行分析、过滤与编码,得到异常信息量;最后将此信息量发送到监控系统中;监控系统以当前成熟的51单片机为核心进行设计,实现与上位机实时通信,同时对当前异常信息量进行显示并产生报警信号,为技术保障员快速发现故障提供可行的依据;系统的实现不仅提高了自动气象站故障的快速响应,同时也为其它气象探测设备的监控提供了参考。 相似文献
16.
17.
18.
高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘应用。由此,设计高效的数据结构、存储及访问机制,快速挑选出有意义的物理事例十分重要。介绍事例的数据结构、存储和处理技术,分析高能物理数据的特点,提出一种以HBase,ROOT,BEAN及MapReduce为基础的新型高能物理数据存储及处理技术系统。利用HBase存储数据、MapReduce实现并行处理,选择ROOT和BEAN作为高能物理分析框架,并给出具体设计与实现方案。测试结果表明,与传统高能物理数据存储系统相比,该系统具有更快的数据处理速度,当预筛选服务生效时能够更加有效地利用I/O和CPU资源。 相似文献
19.
随着信息技术、网络技术的快速发展,在水土保持的预防和治理工作中可以应用自动化采集设备进行数据的采集、存储和管理,提高水土保持检测的准确性、完整性和整个过程的工作效率。本文设计一套基于大数据的水土保持监测站自动数据采集系统,该系统可实现水土保持监测数据远程自动采集、归类、汇总、存储,将其应用到监测站中,通过几个月的运行测试,系统工作状态良好,可准确、完整地完成水土标尺监测数据自动采集与数据处理和存储功能。 相似文献
20.
Weather radars produce large amounts of data and this has important implications for the archiving and analysis of data. The need for methods to deal with weather radar data sets will only increase as the United States National Weather Service (NWS) continues deployment of its 137 WSR-88D radars as part of the NEXRAD program. In this article we describe a compression and archiving strategy for weather radar data and present results for 62 days of reflectivity data from a radar operated by the NWS, as well as results for 60 days of reflectivity data for a radar operated by the Bureau of Meteorology in Australia. In their original format, these two sets require 60 GB of storage. In the format we describe, they require 4.8 GB and the data is portable across many platforms. The software for manipulating the converted data is simple, efficient, and easy to implement in C or Fortran. The savings in disk space and reduction in reading time compare favorably with what is attainable with deflation, the algorithm used in the popular gzip compression program. © 1997 John Wiley & Sons, Ltd. 相似文献