首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
张杰  叶德谦 《微处理机》2007,28(2):61-63
数据仓库(DW)是随着时间不断变化的数据集合。因此数据增量更新技术是数据仓库技术能否成功实施的关键。在目前的数据增量更新算法基础上,给出一种采用中间件来进行数据增量更新的方案和算法。并通过实例将此方法与原增量更新算法进行了细致的比较,说明了此算法有较好的更新效率。  相似文献   

2.
视图增量更新算法作为提高移动数据库响应性能的重要手段已有许多研究。随着XML结构在移动数据库中的应用,现有的算法不适用于目前移动数据库中存储的数据。提出了以XML树型结构为基础的一种新的视图增量更新算法XSIU(XML Structured-based Incremental Update),通过该算法能有效解决视图的增量更新在XML中的实现。实验表明,当带宽急剧下降时,该算法能有效提高移动环境中视图的增量更新性能。  相似文献   

3.
增量数据更新是各个异构系统之间进行数据共享融合的关键,也是构建增量式数据仓库来进行数据分析的关键.随着大数据技术的发展,传统的增量更新算法已经无法适应时代的潮流.为此,本文基于Spark等成熟的大数据技术提出了一种近实时增量数据更新方法.本文采用OGG+kafka进行增量数据捕获,采用Spark对增量数据进行实时分析,...  相似文献   

4.
随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点。频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向。但现有频繁项集增量更新算法大多基于APRIORI算法框架,性能提高有限。最近出现的建立在FP‐T REE等树形结构上的增量更新算法又往往存在树形结构调整困难、已发现频繁项集及树形结构保存效率较低等问题,算法性能有待进一步地提高。对此,通过分析增量挖掘过程中的关键信息,提出了一种基于磁盘存储1项集计数的增量FP_GROWTH算法(IU_FPGROWTH_1COUNTING)。该算法无需保存临时树形结构及临时挖掘结果,可以在原数据集及支持度均发生变化时,减少FP_GROWT H算法对数据集的扫描,提高频繁项集的挖掘效率。在生成以及真实数据集上进行了验证实验以及性能分析,结果表明IU_FPGROWTH_1COUNTING是一种有效的频繁项集增量更新挖掘算法。  相似文献   

5.
随着互联网的快速发展,越来越多的应用需要在大规模图结构数据上作分析和计算,面对动态变化的图结构,人们希望能够实时地得到反映最新图结构的计算结果.传统的图处理系统都是面向静态图结构,不能满足动态图结构的实时性要求.已经提出的增量图计算模型,其算法适用范围受限,而且都是基于串行执行增量更新,当图结构变化比较迅速时,往往结果的实时性不够高.提出了一种新的基于并发更新的图计算模型SpecGraph,它通过解耦合的计算模型、异步执行引擎和基于推测执行的并发更新机制,达到更广的算法适用性和更高的实时性要求.SpecGraph通过解耦合的计算模型,使得顶点状态只依赖于接收到的邻居信息,为增量更新和并发更新提供了透明实现的可能;通过异步计算引擎,使得系统在增量更新时更加灵活,资源占用低,同时保证了并发的可执行性;通过基于推测执行的并发增量更新,SpecGraph能够达到更高的实时性要求.  相似文献   

6.
为更新批量数据,提出一种基于DBSCAN的新聚类方法。该算法通过扫描原对象确定它们同增量对象间的关系,得到一个相关对象集,同时根据该相关对象和增量对象之间的关系获得新的聚类结果。实验结果表明,该算法与DBSCAN是等价的,能更有效地解决批量数据更新时的增量聚类问题。  相似文献   

7.
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM 算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法 GECT-IM 及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性.  相似文献   

8.
异构环境下数据库增量同步更新机制   总被引:4,自引:0,他引:4  
分析企业数据集成中存在异构数据库的变化数据捕获与数据同步问题,对多种变更数据捕获方式进行比较,提出了一种将触发器和日志表相结合的变更数据捕获方法。设计了一种基于Web服务的分布式异构数据库增量同步更新机制,建立了中心数据库,通过事件驱动传输体系,将分布式数据库和中心数据库各自将捕获的增量数据进行同步,实现了分布式异构数据库增量同步更新系统原型。最后用实例对系统进行了测试,结果表明了该设计的可行性和合理性。  相似文献   

9.
一种增量更新FreeCube的方法   总被引:1,自引:1,他引:0  
数据立方体是联机分析处理的一个重要应用。如何对数据立方体(CUBE)进行更新目前研究相对较少。给出了CUBE的一种新颖的存储结构——FreeCube的定义,该结构大大降低了CUBE存储的空间,分析了它的相关性质,提出了增量更新FreeCube的理论,并给出了具体的算法,以实例说明了该算法的正确性,总结了下一步的工作方向。  相似文献   

10.
分析了ETL(Extraction-Transformation-Loading)及其增量更新对于商业智能系统的重要性,介绍了一种基于SAP的商业智能系统中ETL增量更新实现方法,实现快速抽取源系统中变化的数据,减少源系统和目标系统间的数据传输量,提高数据的抽取速度。  相似文献   

11.
在侏儒立方体研究的基础上,提出了一种新的能够保持语义的立方体结构。这种结构改变了侏儒立方体对聚集数据的存储方式,在保持基本立方体上卷、下钻语义的前提下,尽量地去除前缀冗余、后缀冗余,节约存储空间,保证立方体清晰的结构,并且拥有比侏儒立方体更高的存储效率和查询响应速度,对点查询和范围查询能够快速地返回结果,对大数据量情况下的稀疏立方体具有良好的支持。  相似文献   

12.
Data cube pre-computation is an important concept for supporting OLAP (Online Analytical Processing) and has been studied extensively. It is often not feasible to compute a complete data cube due to the huge storage requirement. Recently proposed quotient cube addressed this issue through a partitioning method that groups cube cells into equivalence partitions. Such an approach not only is useful for distributive aggregate functions such as SUM but also can be applied to the maintenance of holistic aggregate functions like MEDIAN which will require the storage of a set of tuples for each equivalence class. Unfortunately, as changes are made to the data sources, maintaining the quotient cube is non-trivial since the partitioning of the cube cells must also be updated. In this paper, the authors design incremental algorithms to update a quotient cube efficiently for both SUM and MEDIAN aggregate functions. For the aggregate function SUM, concepts are borrowed from the principle of Galois Lattice to develop CPU-efficient algorithms to update a quotient cube. For the aggregate function MEDIAN, the concept of a pseudo class is introduced to further reduce the size of the quotient cube, Coupled with a novel sliding window technique, an efficient algorithm is developed for maintaining a MEDIAN quotient cube that takes up reasonably small storage space. Performance study shows that the proposed algorithms are efficient and scalable over large databases.  相似文献   

13.
Data cube computation is a well-known expensive operation and has been studied extensively. It is often not feasible to compute a complete data cube due to the huge storage requirement. Recently proposed quotient cube addressed this fundamental issue through a partitioning method that groups cube cells into equivalent partitions. The effectiveness and efficiency of the quotient cube for cube compression and computation have been proved. However, as changes are made to the data sources, to maintain such a quotient cube is non-trivial since the equivalent classes in it must be split or merged. In this paper, incremental algorithms are designed to update existing quotient cube efficiently based on Galois lattice. Performance study shows that these algorithms are efficient and scalable for large databases.  相似文献   

14.
MapReduce环境下的并行Dwarf立方构建   总被引:1,自引:0,他引:1  
针对数据密集型应用,提出了一种基于MapReduce框架的并行Dwarf数据立方构建算法.算法将传统Dwarf立方等价分割为多个独立的子Dwarf立方,采用MapReduce架构,实现了Dwarf立方的并行构建、查询和更新.实验证明,并行Dwarf算法一方面结合了MapReduce框架的并行性和高可扩展性,另一方面结合...  相似文献   

15.
印莹  赵宇海  张斌 《计算机科学》2005,32(11):88-90
数据立方计算是代价非常大的操作,并且被广泛研究。受空问的限制,存储一个完全实例化的数据立方是不可行的。最近提出的一种语义压缩数据立方一Dwarf,通过消除前缀冗余和后缀冗余把一个完全实例化的数据立方压缩存储到一个很小的空问。然而,当数据源发生变化时,它的更新过程是很复杂的。本文通过研究Dwarf在更新过程中汇总结点的变化特性,提出了一种基于Dwarf的新的增量更新算法,既能完全实例化数据立方又不需要重新计算,大大提高了数据立方的更新效率。实验进一步证明了该算法的效率和有效性,尤其适合数据仓库中的高维数据集。  相似文献   

16.
提出利用Cube中的维层次聚集树(dimension hierarchy aggregate tree,简称DHA-Tree)来对聚集Cube进行增量更新维护,在维层次聚集Cube中进行数据插入和删除等数据更新时,充分利用维层次聚集树中的维层次前缀,由下向上用更新前后的差值对受到更新结点影响的所有祖先结点进行增量更新.在插入新维数据时,在不需要重新构建聚集Cube就可以对聚集Cube进行增量更新,从而减少了Cube的更新时间.对基于维层次聚集树的聚集Cube与传统Cube进行了算法性能分析和比较,结果表明本文所提出的聚集Cube的增量更新算法性能最佳.  相似文献   

17.
PMC: Select Materialized Cells in Data Cubes   总被引:1,自引:0,他引:1       下载免费PDF全文
QC-Tree is one of the most storage-efficient structures for data cubes in an MOLAP system. Although QC-Tree can achieve a high compression ratio, it is still a fully materialized data cube. In this paper, an improved structure PMC is presented allowing us to materialize only a part of the cells in a QC-Tree to save more storage space. There is a notable difference between our partially materialization algorithm and traditional materialized views selection algorithms. In a traditional algorithm, when a view is selected, all the cells in this view are to be materialized. Otherwise, if a view is not selected, all the cells in this view will not be materialized. This strategy results in the unstable query performance. The presented algorithm, however, selects and materializes data in cell level, and, along with further reduced space and update cost, it can ensure a stable query performance. A series of experiments are conducted on both synthetic and real data sets. The results show that PMC can further reduce storage space occupied by the data cube, and can shorten the time to update the cube.  相似文献   

18.
数据仓库系统中一种改进的维层次聚集Cube存储结构   总被引:3,自引:0,他引:3  
提出利用Cube中的维层次(dimension hierarchy)聚集技术来创建高性能的维层次聚集Cube(dimension hierarchy aggregate cube,DHAC).充分利用DHAC已保存的维层次信息,对Cube中多维数据的查询和更新效率进行了优化,并且支持Cube的上探、下钻等语义操作.在DHAC中进行数据插入和删除等数据更新时,由下向上用更新前后的差值对受到更新结点影响的所有祖先结点进行增量更新.实现了在插入新维或维层次时不需要重新构建聚集Cube就可以实现Cube的模式更新.对维层次聚集Cube与传统Cube进行了算法性能分析和比较,理论分析和实验结果都表明,所提出的DHAC性能最佳.  相似文献   

19.
向阳  王庆大  张迎春 《计算机工程》2005,31(20):70-71,129
针对MS OLAP对海量数据立方体进行完全更新非常耗时,以及在它的服务器管理器中实现数据立方体的手动增最更新操作繁琐,需要由熟悉MDX语言的专业人员完成的问题,文章提出了基于事实表上时间戳或其它标志的自动增量更新方案,并给出了C#编写的程序示例。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号