首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
杨良怀  卢晨曦  范玉雷  朱镇洋  潘建 《软件学报》2021,32(11):3576-3595
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.  相似文献   

2.
3.
Analysis of historical data in data warehouses contributes significantly toward future decision-making. A number of design factors including, slowly changing dimensions (SCDs), affect the quality of such analysis. In SCDs, attribute values may change over time and must be tracked. They should maintain consistency and correctness of data, and show good query performance. We identify that SCDs can have three types of validity periods: disjoint, overlapping, and same validity periods. We then show that the third type cannot be handled through the temporal star schema for temporal data warehouses (TDWs). We further show that a hybrid/Type6 scheme and temporal star schema may be used to handle this shortcoming. We demonstrate that the use of a surrogate key in the hybrid scheme efficiently identifies data, avoids most time comparisons, and improves query performance. Finally, we compare the TDWs and a surrogate key-based temporal data warehouse (SKTDW) using query formulation, query performance, and data warehouse size as parameters. The results of our experiments for 23 queries of five different types show that SKTDW outperforms TDW for all type of queries, with average and maximum performance improvements of 165% and 1071%, respectively. The results of our experiments are statistically significant.  相似文献   

4.
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。  相似文献   

5.
提出了一种基于B~+树的、针对有效时间区间的索引模式:FQM-tree(fast query map tree).FQM-tree将有效时间区间映射为一维空间上的点,对映射点建立索引;同时增加一个基于内存的辅助索引结构,最大程度地减少对无效节点的访问.该索引结构具有如下优点:首先,将时问区间映射为点,可以直接利用已有应用成熟的、被广泛支持索引结构(如B~+树),这就意味着可以在数据库中快速实现对时态索引的支持,而无需更改DBMS的内核;其次,基于内存的辅助索引结构可以直接定位叶节点,提高了时态查询效率;另外,由于当前B~+树仍是数据库中应用最成熟、最广泛的索引结构,因此借助B+树的基本结构研究时态索引,使得时态索引能够快速地得到具体应用,所以FQM-tree的研究具有广泛的应用价值.理论分析及大量的实验结果均表明,FQM-tree的查询性能优于传统的时态索引方法.  相似文献   

6.
索引技术是时态数据库查询优化的重要方法之一。本文提出的可变Hash(VH)索引是建立在时间属性上的一种新的动态索引技术,主要目的是提高时态数据库快照查询的效率。由于时间的不确定性,在时态数据的时间属性上建立Hash索引比较困难。VH索引克服了Hash索引这一难点,提出了索引参数可变的思想,并应用B^+-树对Hash参数进行组织。查询时由时间值在B^+-树上获得Hash参数,进而确定数据的存储地址。通过对其时间复杂度和空间复杂度的理论分析以及实验验证,表明该索引技术可以减少索引查找以及读取数据的I/O次数,并具有理想的空间利用率。  相似文献   

7.
位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。提出了基于服务的位图连接索引管理机制,其主要特点体现在三个方面:独立于数据库的自管理索引机制;基于存储空间约束的TOP K关键字位图连接索引机制;处理器敏感(processor-conscious)的位图连接索引技术。索引服务将索引从数据库中内置的数据结构变成数据库外的索引服务层,通过对用户查询负载的分析模块和索引服务管理模块改变传统的由数据库管理员人工管理索引的模式,同时借助于协处理器和内存云技术提高索引服务的性能和灵活性。实验测试结果表明,索引服务机制能够有效地提高索引存储和访问效率,在通用GPU的强大并行处理能力的支持下,位图连接索引服务的性能和数据库整体查询处理性能都得到了显著的提升。  相似文献   

8.
为提高XML文档的查询效率,提出一种基于倒排表与B+树的联合索引技术。DTD结构索引和内容索引采用倒排表作为索引单位,XML文档索引使用B+树作为索引基本组织。在DTD结构索引的结点编码中设置标识信息,便于确定需要查询的文档。通过建立DTD结构索引、XML文档索引和内容索引,实现混合型XML文档的查询。理论分析与实验结果表明,该技术具有较小的空间开销和较高的查询效率。  相似文献   

9.
因为时空数据库庞大的体积,索引的搜索效率问题在时空数据库中显得非常重要。虽然前人提出的时态索引结构能够提高搜索效率,然而他们的搜索树都存在重叠问题,严重影响了时空对象的时态搜索效率。针对时空数据库中具有时态特性的时空对象,笔者借鉴R+树的原理,在文中提出了一种基于二维时态属性的索引机制—TR+树。它没有重叠问题,相对于前人的研究,TR+树提高了时间检索的性能,并且可以降低时空数据库系统的复杂度。  相似文献   

10.
针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引。首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合;然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法。通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景。  相似文献   

11.
空间索引是实现空间查询的关键技术,其性能的好坏直接决定着空间数据的存储效率及空间查询的性能。为了提高空间查询效率,提出一种混合空间索引结构松散QR-树:LQR-tree。针对已有的QR-树索引结构在节点分配中,可能存在较小的对象落入较大的节点中的问题,将松散四叉树和R-树相结合,能够实现节点下移,优化处理移动空间对象的查询,给出LQR-tree的结构和插入删除算法,并提出对应算法的相关定理和证明。  相似文献   

12.
讨论一种基于线序划分的时态数据索引技术。首先,讨论了时间期间集合上线序划分概念及其构建算法;其次,提出了基于常规磁盘方式进行数据管理的时态数据库索引技术TQOindex;另外,对TQOindex进行的基本实验仿真表明了其可行性和有效性。TQOindex的基本特征是基于"序关系"数学框架,能够实现"一次一集合"的数据操作。  相似文献   

13.
Effective support for temporal applications by database systems represents an important technical objective that is difficult to achieve since it requires an integrated solution for several problems, including (i) expressive temporal representations and data models, (ii) powerful languages for temporal queries and snapshot queries, (iii) indexing, clustering and query optimization techniques for managing temporal information efficiently, and (iv) architectures that bring together the different pieces of enabling technology into a robust system. In this paper, we present the ArchIS system that achieves these objectives by supporting a temporally grouped data model on top of RDBMS. ArchIS’ architecture uses (a) XML to support temporally grouped (virtual) representations of the database history, (b) XQuery to express powerful temporal queries on such views, (c) temporal clustering and indexing techniques for managing the actual historical data in a relational database, and (d) SQL/XML for executing the queries on the XML views as equivalent queries on the relational database. The performance studies presented in the paper show that ArchIS is quite effective at storing and retrieving under complex query conditions the transaction-time history of relational databases, and can also assure excellent storage efficiency by providing compression as an option. This approach achieves full-functionality transaction-time databases without requiring temporal extensions in XML or database standards, and provides critical support to emerging application areas such as RFID.  相似文献   

14.
An inverted index is a core data structure of Information Retrieval systems, especially in search engines. Since the search environments have become more dynamic, many on-line index maintenance strategies have been proposed. Previous strategies were designed for HDDs. Consequently, in order to avoid expensive random access cost, Merge-based strategies have been preferred to In-place index update strategies on HDDs. However, flashSSDs have become solid alternatives to HDDs. FlashSSDs currently are adopted in a wide range of areas due to their superior features such as the short access latency, energy efficiency, and high bandwidth. In this article, we first reexamined potentials of In-place index update strategies on flashSSDs. Thanks to the insignificant access latency of flashSSDs, we discovered that In-place index update strategies outperform Merge-based strategies, since In-place index update strategies generate much less amount of I/O than Merge-based strategies despite inducing frequent random accesses. Based on this discovery, we suggest a new inverted index maintenance strategy based on an In-place index update strategy for flashSSDs, called Multipath Flash In-place Strategy (MFIS). To enhance the index maintenance performance, MFIS stores the posting list of each term non-contiguously and exploits the internal parallelism of flashSSDs. Thus, MFIS not only induces the minimum amount of I/O but also utilizes the maximum bandwidth of flashSSDs. Furthermore, MFIS is designed to show high query processing performance by utilizing the internal parallelism of flashSSDs even though the posting list of each term is stored non-contiguously. In our experiments, the index maintenance performance of MFIS was considerably better than other previous maintenance strategies. The index maintenance performance was up to 14.93, 4.04, 5.12, and 2.33 times higher than Merge-based strategies such as Immediate Merge, Geometric Partitioning, Hybrid, and SSD-aware Hybrid, respectively. The query processing performance of MFIS was up to 1.62 times higher than non-contiguous In-place. In addition, MFIS showed almost the best query processing performance as Merge-based strategies did. In conclusion, MFIS is the best on-line inverted index maintenance strategy on flashSSDs in terms of both index maintenance and query processing performance.  相似文献   

15.
随着各领域对多源遥感影像数据需求的不断增加,如何高效地管理多源海量遥感影像数据,更好地为各行各业服务是遥感数据库研究的热点。目前国内外很多学者在建设多源遥感影像数据库方面进行了相关研究,但对多源遥感影像数据组织、遥感影像数据预处理以及快速索引方面的研究尚存在不足。设计了一种多源遥感影像数据组织模型,实现了多源影像的集成化管理;实现了一种多源海量原始遥感影像(特别是航空影像)的半自动预处理机制,极大地缩短了原始影像数据的处理时间;设计了一种混合检索方法,达到了海量多源遥感影像数据快速高效检索的目的。结果表明:该方法建库效率显著提高,混合索引的查询速度比ArcSDE自动创建的空间索引检索速度有了快速提高,在数据量较小时查询速度至少可以提高4倍,而数据量较大时检索速度至少可以提高12.83倍。  相似文献   

16.
张军旗  周向东  施伯乐 《软件学报》2008,19(8):2054-2065
为了改进高维数据库查询的效率,通常需要根据数据分布来选择合适的索引策略.然而,经典的分布模型难以解决实际应用中图像、视频等高维数据复杂的分布估计问题.提出一种基于查询采样进行数据分布估计的方法,并在此基础上提出了一种支持最近邻查询的混合索引,即针对多媒体数据分布的不均匀性,自适应地对不同分布的数据使用不同的索引结构,建立统一的索引结构.为了实现混合索引,采用构造性方法:首先通过聚类分解分割数据并建立树状索引;然后使用查询采样算法,对数据实际分布进行估计;最后根据数据分布的特性,把稀疏数据从树状索引中剪裁出来,进行基于顺序扫描策略的索引,而分布比较密集的数据仍然保留在树状索引中.在4个真实的图像数据集上进行了充分的实验,结果显示,该索引方法明显优于iDistance,M-Tree等度量空间索引,在维数达到336时,查询效率仍高于顺序扫描.实验结果显示,该查询采样算法在采样数据量仅为N~(1/2)(N为数据量)的情况下即可获得满足索引需要的分布估计结果.  相似文献   

17.
一种基于时态中间件的高效双时态索引模型   总被引:1,自引:0,他引:1  
当前的时态数据库中间件不支持包含事务时间和有效时间的双时态数据索引,通过使用适当的数据变换和查询变换,可将双时态数据转化为R树可索引的数据.基于4R技术,提出了作为时态中间件TimeDB组件的双时态索引模型B4Rindex.实验证明,利用该模型对双时态数据进行索引是高效的.  相似文献   

18.
华亚洲  丁琳琳  陈泽  王俊陆  朱珠 《计算机应用》2022,42(11):3429-3437
时空数据作为一种同时具有时间维度及空间维度的数据类型,被广泛应用于供应链管理、电子商务等领域,它的完整性及安全性在实际应用中具有重要意义。针对目前时空数据集中式存储方式存在数据不透明且易被篡改的问题,将区块链技术的去中心化、防篡改、可追溯等特性与时空数据管理相结合,提出面向时空数据的区块链构建及查询方法。首先,提出一种基于改进图型区块链(Block?DAG)的时空数据区块链架构ST_Block?DAG;其次,为了提升时空数据的存储及查询效率,在ST_Block?DAG区块链内部采取基于四叉树及单链表的结构存储时空数据;最后,在ST?Block?DAG存储结构基础上实现了多种时空数据查询算法,如单值查询、范围查询等。实验结果表明,与STBitcoin、Block?DAG以及STEth相比,ST_Block?DAG的时空数据处理效率提升了70%以上,时空数据综合查询性能提升了60%以上。所提方法能够实现时空数据的快速存储及查询,可以有效支持时空数据的管理。  相似文献   

19.
索引技术是时态数据库查询优化的重要方法之一。分析了时态数据库中的不确定时态信息以及基于不确定时态信息的索引技术,并详细讨论了能处理时间变元的改进的4R-tree索引技术的建立过程。  相似文献   

20.
标签图常用于智能交通网、生物信息网等新兴领域的建模。子图查询作为图数据分析的关键问题,引起了研究者的广泛关注。对现有子图查询算法的研究发现,随着图数据规模增大且频繁更新,传统子图查询算法普遍存在查询效率低,存储开销大,忽略顶点标签信息等问题。为此,提出了一种支持大规模动态标签图子图查询的层次序列索引(Dynamic Hierarchical Sequence,DHS),该索引提取数据图中带有顶点编号的层次拓扑序列关系以实现子图查询;针对图的动态变化,提出了更新点拓扑扩展式索引维护策略,仅从局部变化顶点及边开始进行增量式更新,大大降低了重建索引造成的巨大开销;提出了基于DHS索引的子图查询方法,仅需将查询图与数据图的层次序列进行匹配即可获得候选集,并在其上利用关系匹配策略获得最终查询结果。实验证明提出的方法在保证高效查询的同时降低了索引的创建及维护时间,提高了子图查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号