首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
数据流历史数据的存储与聚集查询处理算法   总被引:7,自引:0,他引:7  
张冬冬  李建中  王伟平  郭龙江 《软件学报》2005,16(12):2089-2098
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.  相似文献   

2.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。  相似文献   

3.
为解决流程工业中过程历史数据的存储以及大量数据的快速查询问题,提出一种基于关系数据库的磁盘历史数据库模型。在数据存储方案设计中,将关于位号和数据采集接口的静态信息存储在关系数据库中,历史数据以文件形式存放,采用三重二级缓存机制避免频繁访问磁盘,并使用经典的SDT算法对实时数据进行压缩存储,降低存储成本。数据查询方案采用三级索引文件结构,即总索引文件、二级索引文件和位号索引文件,提高查询效率。该磁盘历史数据库的第一版已经成功实现,应用结果表明,数据存储方案和查询方案的设计是合理的,100个位号的查询时间约为500 ms。  相似文献   

4.
姚秋林  王映  刘萍  郭莉 《软件学报》2009,20(9):2462-2469
给出一种基于CEI(containment-encoded intervals)的存储优化的数据流查询区间索引结构.在数据流处理中涉及到大量的数值型区间查询操作,构造一个基于主存并支持快速查询的区间索引结构十分必要.对CEI索引结构而言,虽然支持高速查询,但存储利用率较低.针对该问题,提出了索引结构ACEI(advanced-CEI).在CEI索引结构的基础上,通过数据结构调整和参数优化,ACEI可在保持原有查询速度的前提下将CEI的空间复杂度由O(R+N(W/L+N(log(L))降为O(sqrt(R(N)+N(sqrt(W)).实验结果表明,ACEI结构可以极大地提高索引结构的存储利用率,并且可以用于大端点值域下的区间索引.  相似文献   

5.
杨良怀  卢晨曦  范玉雷  朱镇洋  潘建 《软件学报》2021,32(11):3576-3595
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.  相似文献   

6.
通过对流数据的抽样存储,并在内存中建立B 树结构,对抽样数据和常用聚集操作进行索引,实现了对无限数据流历史数据的抽样存储管理,有效地支持了数据流历史数据查询.  相似文献   

7.
考虑到工控位号历史数据时间戳递增的特点,针对已有实时数据库产品历史数据存储索引查询效率不高,磁盘空间利用率低的不足,提出了一种以B+树为索引方式,以状态链表和页式存储为管理方式的历史数据缓冲区管理方式.经过实际测试表明,基于该缓冲区管理算法的历史数据存储模块存取效率高,并发性能好,磁盘空间的利用率高,完全可以替代关系数据库作为实时数据库的历史数据存储模块.  相似文献   

8.
《软件工程师》2019,(12):44-46
由于数据流的不稳定性,将数据流查询安排在固定节点上就会造成分布式数据流处理技术很难对计算资源实现较高的处理效率,基于此,提出大数据分析下分布式数据流处理技术研究。具体流程是数据收集、历史数据的存储和查询、Storm实时处理、智能索引、数据模型的建立。根据实验结果可知,本文提出的大数据分析下分布式数据流处理技术与传统技术相比,在数据流的处理效率上占有较大优势,一般维持在75%以上,能够大大节省处理时间。  相似文献   

9.
基于Multi-Bloom Filters的数据流聚集查询   总被引:1,自引:0,他引:1       下载免费PDF全文
张育  沈鸿 《计算机工程》2009,35(5):28-30,3
针对数据流上任意时闯段的历史数据的聚集查询问题,提出基于BF技术的概要存储模型MBF。采用全局比特位向量提供数据元素的快速插入和查找,结合动态分配的局部计数器向量存储不同时间段下的历史数据,使MBF支持不同时间粒度上历史数据的有效存储和高效查询,给出历史时间跨度较大情况下MBF的压缩方法以及MBF模型的参数最优化设置。理论分析证明,MBF具有较大的灵活性,能有效支持时间范围内历史数据元素的近似聚集查询。  相似文献   

10.
《软件》2016,(3):79-83
伴随海量数据存储、处理技术的发展,数据中心中积累了大量的格式化历史数据,此类数据呈现出数据规模庞大、被查询频次低和查询内容规律不确定等特点,而当前以文件为操作对象的系统在查询此类数据时主要采用分布式计算引擎对数据进行全局遍历,存在处理时间长、系统资源消耗高等问题。因此,本文提出了一种基于列式多级索引的海量数据高效查询方法,使得查询过程中只有承载相关数据的节点参与计算,大幅降低了系统资源消耗。实验表明,本文方法在用于大规模历史数据内容查询时,相对于较主流的文件系统查询技术有明显的效率提升。  相似文献   

11.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。  相似文献   

12.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

13.
随着语义网的快速发展,为了实现科学数据的共享,越来越多的科学数据被加工发布为关联数据,进而应用于关联查询和关联发现。针对大规模关联数据的管理,本文通过构建 RDF 数据库集群来存储海量数据,设计了基于 SPARQL 端点的联合查询系统来解决用户跨机器透明查询的问题,分析了存储策略和联合查询系统的查询处理相关技术。实际运行表明,本平台易于集成使用,可以实现大规模 RDF 数据的可扩展性存储和有效查询。  相似文献   

14.
为了提高查询效率,从数据流查询过程中查询操作单元和查询存储结构的共享两个方面展开研究.设计一种基于共享的二级索引队列,用于存储数据流中间结果.该结构使得中间查询结果可以再利用的同时也为数据共享情况下的迁移提供了一定的灵活性.对于多查询共享,通过抽取相同数据流中的相同谓词进行查询共享,实现一处计算多处使用的目的.最后对相关模型和算法进行了分析.  相似文献   

15.
海量结构化数据存储检索系统   总被引:4,自引:0,他引:4  
Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合.  相似文献   

16.
针对物联网(IOT)复杂事件查询处理过程中的重复查询、存储和处理的问题,提出了事件共享机制(ESM)。首先,为了实现复杂事件的查询与检测,给出了物联网语义事件定义及事件操作符的语义描述;其次,从公共子查询的定义、公共内部查询结构的设计以及事件资源的共享三个角度对物联网事件共享机制展开研究,通过查询表达式的重写、有向无环图(DAG)的构建,以及在结点上使用改进的Continuous参数上下文对事件流进行处理,实现公共子事件查询、存储和处理的共享;最后,构建了基于事件共享机制的语义形式化查询计划处理模型(SFQPM),该模型可自动对查询表达式和查询谓词进行处理,实现复杂事件检测和处理的自动化。仿真结果表明,与基于二叉树(BTree)的处理方法进行对比,所提出的SFQPM具有较高的处理效率和可靠性,实现了复杂事件检测与中间结果共享机制的有机统一,提高了系统的处理效率。最后通过案例研究验证了所提出算法的有效性和可行性。  相似文献   

17.
制造物联网中海量实时数据流急需高效的事件检测与处理方法,高效意味着单位时间内使用较小的存储空间处理更多的输入事件。提出一种基于双数组trie树的多模式复杂事件检测方法,通过构建多模式匹配自动机模型减少查询过程中冗余的检测和计算,并利用双数组trie树充分压缩存储空间,从而提高了复杂事件处理的效率。仿真实验表明,提出的方案相比传统的单模式复杂事件检测,具有较小的空间和时间消耗。  相似文献   

18.
A distributed parallel alarm management strategy based on massive historical alarms and distributed clustering algorithm is proposed to reduce the number of alarms presented to operators in modern chemical plants. Due to the large and growing scale of historical alarms as the basis of analysis, it is difficult for traditional alarm management strategy to store and analyze all alarms efficiently. In this paper, by designing the row key and storage structure in a distributed extensible NoSQL database, the strategy spreads alarm data in a group of commercial machines, which ensures the capacity and scalability of the whole system. Meanwhile, Distributed Parallel Query Model (DPQM) proposed as a unified query model provides efficient query and better integration of distributed platform. Based on the characteristics of alarms and time-delay correlation of alarm occurrence, alarm similarity criteria are proposed to effectively identify repetitive and homologous alarms. In order to group massive alarm data, a new distributed clustering algorithm is designed to work concurrently in MapReduce frameworks. The test results using alarm data from real chemical plants show that the strategy is better than traditional method based on MySQL at system performance, and provides excellent redundant alarm suppression in both normal situation and alarm flooding situation.  相似文献   

19.
作为Skyline查询的一种重要变体,不确定数据流上的反Skyline查询已经成为研究的热点。已有的单机算法无法应对诸如高速数据流、高数据维度、大滑动窗口等情况,相应提出并行查询处理算法PRSUDS。算法采用基于角度划分的分发策略将处理任务分发至各并行节点,给出该分发策略的正确性证明,进而设计、实现算法的并行处理框架。实验结果表明PRSUDS算法较单机算法具有更好的综合性能,更能满足数据流查询的实时性要求。  相似文献   

20.
介绍海量KDF数据分布式存储的一种解决方案.R39F数据是按照主题-谓词-对象三元组进行存储的,重要的RDF数据还存储了额外的信息,例如版本信息、临时查询信息等.学习和研究当前流行的几种分布式存储框架,依托于开源框架HBase,在Linux集群上实现高效、协作地存储海量RDF数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号