首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。  相似文献   

2.
在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。  相似文献   

3.
随着遥感技术和摄影测绘的发展,遥感影像的分辨率不断提高,数据量日益增长,这对快速、高效地处理海量遥感影像数据提出了更高的要求,如何有效、智能地存储和处理海量遥感数据成为研究的热点。在分析现有金字塔模型的并行构建的基础上,设计一种面向Spark计算框架的影像金字塔模型。模型给出了影像金字塔构建算法及影像数据的分布式存储组织结构,实现了海量遥感影像数据在Spark中的并行处理,为Spark增加了计算处理空间数据格式的能力。实验结果表明,利用该方法能够在Spark云平台上实现快速、高效的解决海量遥感影像金字塔的并行构建,特别是在面对海量遥感影像数据时,无论从金字塔构建性能上还是遥感影像的计算效率上,Spark都更具优势。  相似文献   

4.
PGrid是一个基于格网索引的移动对象并行处理框架。通过分析PGrid框架不利于在GPU上并行的因素,提出基于GPU的无锁并行处理G-LFPP(GPU Based Lock Free Parallel Processing)框架。采用基于操作分解/聚类的无锁更新策略,消除更新过程中并发控制对更新性能的影响;为了实现细粒度并行查询,提出基于候选集映射表和查询确认表的快速查询索引。实验表明,该方法更新和查询策略有利于大规模线程并发处理更新和查询。当移动对象的数量达到千万级时,更新速率和查询速率仍然可以超过每秒1100万次和110万次。与PGrid相比,并发处理更新和查询的速度提高了6.61倍。  相似文献   

5.
随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战。针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法。首先,对传统地形数据管理方式和基于HBase的数据存储国内外研究现状进行了综述;然后,在基于四叉树对全球数据进行组织的基础上,提出了四叉树和Hilbert编码相结合的设计思想;其次,设计了根据经纬度求地形数据的行列号和根据行列号计算Hilbert编码的算法;最后,对设计的索引的物理存储结构进行了设计。实验结果表明,利用设计的索引进行海量地形数据入库,数据入库速度与单机情况相比,提高了63.79%~78.45%;在地形数据的范围查询中,设计的索引与传统的行序索引相比,查询时间降低了16.13%~39.68%。查询速度最低为14.71 MB/s,可以满足地形数据显示的要求。  相似文献   

6.
随着我国对地观测技术的发展,卫星遥感数据越来越多,传统空间关系数据库在时间范围、空间范围的快速查询及可扩展方面存在一定瓶颈.通过分析ElasticSearch搜索引擎框架,提出了一种基于改良GeoHash编码的时空索引方法,设计并实现了基于ElasticSearch的海量遥感数据检索技术,可以精确高效建立一维行键索引筛选遥感数据,提高查询处理效率.实验结果表明,该技术适合于组织管理与查询海量的遥感数据,查询性能优于传统关系数据库.  相似文献   

7.
遥感影像的存储与查询是地理信息处理中重要的内容,在海量遥感影像的实时处理中发挥着重要作用。针对传统的遥感影像处理中存在单节点故障、扩展性低和处理效率低等问题,提出了一种基于HBase的遥感数据分布式存储与查询方案。该方法首先采用均匀网格对遥感影像进行划分,并根据划分结果设计了一种基于网格ID和Hilbert曲线相结合的索引方案。然后,通过利用HBase的过滤机制设计了过滤列族,达到了在查询时筛选数据的目的。另外,采用MapReduce的并行处理方法对影像数据进行并行写入和查询。实验结果表明,与MySQL和MapFile相比,该方法可以有效地提高数据的写入和查询速度,且具有较好的可扩展性。  相似文献   

8.
在时空数据库中,频繁更新会导致TPR树更新与查询性能下降。针对该问题,提出MAH—TPR索引方法,分别对预处理过程、索引结构及更新算法进行优化。在构建索引及更新操作时,通过使用空间聚类来减少节点间空间区域的交叠几率。引入基于磁盘的Hash辅助存储结构,在直接访问叶节点的基础上进一步减少磁盘I/O的操作。引入基于内存的移动对象辅助存储结构,用于存储发出频繁更新请求,以避免主索引结构节点的合并和分裂。实验结果表明,MAH—TPR索引方法的查询性能优于HTPR方法和LGU方法,更新性能优于HTPR索引方法。  相似文献   

9.
崔光范  许利杰  刘杰  叶丹  钟华 《计算机科学》2018,45(9):104-112, 145
随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。  相似文献   

10.
一种基于空间层交分解的Hilbert码生成算法   总被引:4,自引:0,他引:4       下载免费PDF全文
基于Hilbert空间填充曲线的Hilbert空间排列码是一种优秀的线性映射方法,故在空间查询与索引中得到广泛应用,传统的Hilbert排列码算法是基于Morton码上的二进制位操作,复杂度为O(n^2),在Hilbert空间填充曲线的空间层次发分解特征的基础上,提出了一种新的Hilbert排列码生成算法,即通过栅格空间层交分解与构造区域状态转移向量,以递归的方式来生成Hilbert码,其复杂度为O(n),较之传统算法显著地提高了效率,在此基础上,结果点特征空间区域查询方法,又进一步阐述了以Hilbert空间排玛码作为地址码的二叉平衡排序树空间索引方法的应用特点,并结合实例进行了讨论。  相似文献   

11.
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。  相似文献   

12.
云计算服务允许数据拥有者将数据库外包出去,从而避免高昂的存储和计算资源,该方法的关键在于既要对第三方服务提供商保持数据的机密性,又要为认证用户提供实时查询结果。对此,提出一种转换和加密方法,应用到服务提供商在空间数据集上执行用户查询和响应过程中。采用空间填充Hilbert曲线将多维空间的每一个空间点映射到单维空间;基于顺序保留加密技术处理转换的空间数据;用户向服务提供商发起基于Hilbert值的空间kNN查询,并应用加密密钥对查询响应进行解密。实验证明该加密方法能减少认证用户与服务提供商之间的通信开销。  相似文献   

13.
隐私问题受到越来越多的关注,基于计算的私有信息检索(CPIR)的隐私保护技术允许用户从服务提供商检索数据并且不会泄露查询信息。但是,对于大规模应用,隐私保护技术与可用性之间存在较大差距。针对CPIR算法计算量大、计算时间长而不适合应用于大规模数据隐私保护的问题,提出了基于Spark和Huffman编码的CPIR最近邻查询隐私保护算法(H-PCPIR-V)。H-PCPIR-V算法主要是在数据预处理阶段将最近邻矩阵使用Huffman编码进行压缩减少计算位数,然后通过压缩后矩阵中元素的最大位数对其他元素进行补位,在服务端使用Spark并行框架对查询网格进行并行计算。通过对比实验及实验结果分析发现,相比PCPIR-V算法,H-PCPIR-V算法在服务端的计算代价下降30%左右,客户端的计算代价下降10%左右,通信代价下降40%左右。  相似文献   

14.
针对树形空间索引中多路查询及未考虑时间维索引的问题,提出一种结合时间和聚类结果的Hilbert-R树索引构建策略。首先,按照数据采集的周期划分时空数据集,并在此基础上建立时间索引,通过Hilbert曲线对空间数据进行分割编码,将空间坐标映射到一维区间;其次,依据数据要素在空间中的分布,采用动态确定K值的聚类算法,结合聚类结果构建高效的Hilbert-R树空间索引;最后,基于Redis几种常见的键值数据结构,对时空数据的时间属性和聚类结果构建分级索引。在时空范围及目标矢量对象查询的实验中,与缓存敏感R+树(CCR+)相比,所提算法可有效减少时间开销,查询时间平均缩短约25%,对不同密集型数据具有良好的适应性,可更好地支持Redis应用于海量时空数据查询。  相似文献   

15.
易佳  薛晨  王树鹏 《计算机科学》2017,44(5):172-177
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。  相似文献   

16.
一种基于Hilbert排列码的GIS空间索引方法   总被引:9,自引:0,他引:9  
分析了基于栅格格网的索引数据结构在空间查询中的重要地位,讨论了基于多维数据一维映射的空间排列的优点,对Morton码、Gray码、Hibert码和Sierpinsky码的空间聚类特征进行了分析和比较,得出了Hilbert码在空间查询中效率最高的结论,考虑到基于特征的GIS数据模型的特点,兼顾内存索引与磁盘索引,提出了基于Hilbert空间排列的点特征二叉平衡排序树动态索引结构和基于角点回溯的线特征索引结构,并对其在GIS空间查询中的应用方法进行了论述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号