首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。  相似文献   

2.
在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。  相似文献   

3.
针对传统的时空索引构建、维护困难且实时查询效率低等问题,首先提出基于HBase的时空索引构造方法。该方法采用HBase作为监测视频大数据时空特征索引结构,通过Z填充曲线对空间特征进行降维存储,并利用时间、空间和属性特征之间的关联及依赖规则来安排rowkey索引键,可有效解决传统的时空索引构建、维护困难的缺陷。此外,针对传统的时空索引实时查询效率低的问题,进一步提出了基于Z曲线的时空关联查询算法,该算法对查询空间计算Z值范围和建立空间划分子集,利用划分后的时空特征进行列索引查询得到候选数据集并反查HBase索引表完成关联查询。实验结果表明,与传统的R树索引算法相比,提出的基于HBase的时空索引构造方法索引插入效率更高,提出的基于Z曲线的时空关联查询算法能够快速高效地处理时空关联查询。  相似文献   

4.
海量气象观、探测数据是提高公共气象服务精细化、精准化和个性化水平的关键。日增TB级的海量气象数据在存储、检索、传输、共享方面的时效性要求对构建在传统的IOE技术架构上气象数据管理系统提出了严峻挑战。在HBase基础上,提出了一个基于索引的气象结构化数据查询优化架构HBase4M(HBase for Meteorology)。首先,根据HBase存储特性设计表结构;然后,利用协处理器建立和维护辅助索引,将字段查询转化为对索引表的行键查询,使得HBase4M在具备HBase可扩展性、低延迟的特性上可以支持结构化气象数据的灵活查询。实验结果表明,HBase4M的性能可以基本满足气象服务的业务需要。  相似文献   

5.
在处理路网移动对象时,由于HBase只能采用key查询,不适用于移动对象的多维查询,导致HBase存在存储索引与查询效率不高的问题。针对此问题,在HBase存储结构的基础上设计并实现了一种高效的路网移动对象HBase索引框架(RM-HBase)。首先,对原生HBase索引框架的上层HMaster和下层HRegionServer进行改进,解决分布式集群数据的热点分布问题,提高空间数据的查询效率;其次,提出路网移动索引——RN-tree,解决空间划分中的"死空间"问题,同时提高空间中路段的查询效率;然后,基于上述对HBase的索引改进,分别设计了时空范围查询、时空K最近邻(KNN)查询和移动对象轨迹查询的查询算法;最后,实验选用了同样是基于HBase分布式数据库而提出的时空HBase索引(STEHIX)框架作为对比对象,分别从索引框架的性能和算法的查询效率两个方面对RM-HBase的性能进行分析。实验结果表明,所提的RM-HBase在数据的均衡分布性能和时空查询算法的查询性能方面都优于STEHIX框架,有助于提升海量路网移动对象数据的时空索引效率。  相似文献   

6.
随着信息技术的蓬勃发展,信息技术应用领域的数据量也越来越大,数据仓库的运用也越来越广泛和普遍,特别是在大数据时代,随着数据量的增加,数据仓库管理的数据也越来越多,数据方体的数据量也越来越大,因此也给数据方体的存储和查询带来了巨大的挑战,怎样能够支持对大型数据方体的快速查询,又能减少存储空间,在联机分析处理系统将是非常关键的一环,通过基于哈希算法的增强编码位图索引技术能够有效地减少存储空间并且提高查询效率。  相似文献   

7.
随着数字采集和存储技术的快速发展,视频监测系统得到快速普及,以此带来了海量的监测视频数据。与文本数据不同的是,监测数据具有时空特征,如何在规模庞大且动态增长的数据量下进行高效的查询成为许多时空数据应用所关心的问题。针对云存储体系结构中监测视频大数据高效的时空联合查询需求,充分利用时空特征值和属性特征值在应用中的关联关系,以及HBase数据库在海量查询方面的优良性能,提出了基于HBase Bloomfilter的时空大数据多重过滤机制,创新性地利用视频文件特征值之间的依赖与关联关系来安排rowkey索引键。在此基础上设计出两种时空关联查询算法。最后通过实验证明了算法在时空大数据查询方面的可行性、灵活性和高效性,对其他大数据关联查询应用有较好的指导意义。  相似文献   

8.
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。  相似文献   

9.
针对HBase缺乏二级索引的功能,导致在非行键列上的查询需要使用过滤器并配合全表扫描完来完成。在大数据的场景下性能较差的问题,结合HBase表行键的索引结构与关系型数据库的二级索引结构提出了索引列值聚集的二级索引解决方案。此外,还提出二级索引机制的支持联合索引与特殊的索引列值的处理,提高了二级索引的性能并拓宽了二级索引的适用场景。最后,通过构建系统测试证明了二级索引极大地提高了HBase的查询效率。  相似文献   

10.
分析了HBase的存储模型和Spark的并行处理机制,提出一种矢量空间数据的分布式存储、索引和并行区域查询方法。设计了基于空间对象中心点的行键存储方案,将中心点的Hilbert编码与经纬度小数位结合实现行键的唯一性,保证地理位置接近的要素在表中存储在相邻的行。实现了基于Spark的空间索引并行构建和区域查询方法,借助空间对象中心点的Hilbert编码快速构建索引,通过多边形区域的最小外接矩形过滤查询结果。实验结果表明,索引并行构建可靠性好速度快,区域查询并行处理算法可行且效率高。  相似文献   

11.
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于HBase的领域本体存储方法,采用将领域本体元数据与RDF实例数据分开存储的方式,给出了描述领域本体类及属性信息的元数据和RDF实例数据的存储模型,及其基于MapReduce的领域本体RDF数据并行加载过程。结合应用实现了领域本体基于HBase API的基本图模式查询,并在Hadoop环境下进行了实验与效果分析,为民航应急管理领域本体的海量数据存储提供了理论与方法支撑。  相似文献   

12.
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于Neo4j的领域本体RDF图数据存储方法,研究了领域本体RDF有向标记图结构与Neo4j图数据库存储模型的关系,结合民航突发事件应急管理领域本体的实例查询,给出了RDF图与Neo4j之间的映射关系及其实现过程。实验验证了Neo4j图数据库在满足领域本体RDF图数据查询的同时,进一步提高了查询的效率,为大数据平台下的RDF图数据语义检索与推理提供了方法支撑。  相似文献   

13.
试飞数据是飞行试验的核心产品,具有参数量多,数据体量大,信息复杂程度高,查询响应快等特征,支撑飞机设计、制造、试飞、运营等阶段任务;试飞数据查询引擎旨在提供PB级多维度试飞数据快速查询服务,对试飞数据特征深度分析,采用大数据交互式查询关键技术,基于试飞数据处理与分析平台,研究了存算分离技术和异构计算技术,设计试飞数据查询引擎,具备多源数据汇聚,多维信息精细查询,多层数据灵活钻取,多功能自定义函数集成,多类指标数据自适应输出等功能,创新试飞数据查询与可视化方式,并成功应用在某型国产民机的飞行试验数据管理与分析中,服务于试飞工程师、飞机设计人员、课题工程师,提高了试飞数据管理效率与试飞数据应用价值。  相似文献   

14.
针对日益增长的民用航空巨量数据,借助大数据存储和分析技术,构建民用航空运行大数据分析平台,可更有效支撑快速响应、航材管理、健康管理等各项民机运行业务。结合目前国内外民用航空领域大数据技术的应用现状,梳理民机运行的业务模式及数据类别,设计并构建民用航空大数据分析平台的整体架构。根据目前民用航空运行业务需求,对民用航空大数据平台的硬件平台的管理节点、数据节点的计算能力等功能性能进行设计,并对民用航空大数据平台的轻量级计算、离线数据计算、实时在线数据处理分析等计算需求进行研究,针对不同的计算方式,提供具体解决途径。最后对民机运行大数据分析平台的业务应用集成及接口技术进行研究。分析表明研究成果有助于提高我国民机运行效率,为民用飞机运行大数据平台提供支撑。  相似文献   

15.
针对大数据时代下,海军航空部队存在的种种数据治理问题,设计了一种基于Spark的航空信息服务平台,平台实现了航空数据的存储,分析与挖掘等功能.平台采用4层体系架构,使用了HDFS分布式文件存储框架和Hive数据仓库工具实现了数据的存储和管理.最后,通过仿真实验,比较在不同数据量下航空信息服务平台与传统航空数据仓库的性能优劣.通过海军航空信息服务平台建设,可以有效为海军航空部队实训提供数据支撑,为平台使用者提供辅助决策.  相似文献   

16.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号