首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
ETL工作流活动优先级的确定及并行实现*   总被引:1,自引:0,他引:1  
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。  相似文献   

2.
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——M DETL(MapReduce Distributed ETL).该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率.  相似文献   

3.
姚全珠  白敏  黄蔚 《计算机工程》2009,35(19):91-93,9
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。  相似文献   

4.
阐述了ETL工具在数据仓库系统的建设过程中所处的重要地位,提出了一个基于工作流引擎的ETL系统设计。系统实现一个轻量级的工作流引擎作为ETL流程的调度中心,利用元数据保存记录ETL流程的信息,创建基于数据库引擎的ETL操作组件库来完成从数据源到数据目标的数据映射,并初步实现了对大数据环境数据抽取的支持,从而构建了一个具有良好可扩展性和开放性的ETL系统。  相似文献   

5.
分布式工作流引擎的设计方法   总被引:1,自引:0,他引:1  
分布式工作流技术是计算机应用领域的一个较新的研究方向,工作流引擎的分布执行是工作流技术发展的一种必然趋势.针对企业级的实际需求,提出一种分布式工作流引擎的体系结构,并对引擎结构的各部分功能进行了描述,以及对工作流引擎的执行过程进行了分析.最后将工作流引擎的设计思想应用到具体实例分析中.  相似文献   

6.
将多Agent技术引入分布式工作流引擎中,构造设计了基于多Agent的工作流引擎模型,并分别解释了引擎模型中模板解析Agent、流程管理Agent、任务分配Agent、活动执行Agent、资源Agent和监控管理Agent的具体功能。该模型利用智能Agent对动态复杂活动进行解析、选取最佳执行路径,解决了工作流引擎运行的瓶颈问题,改善了工作流引擎的运行效率,提高了企业的生产力和处理复杂问题的能力。  相似文献   

7.
一种基于BPEL的网格工作流引擎   总被引:1,自引:0,他引:1  
随着网格应用复杂性的不断增加,需要将多个网格服务编排成为一个网格服务工作流模型,然后由工作流引擎执行对网格服务的调用.为此,我们设计并实现了一个基于BPEL的网格服务工作流引擎BPEL FlowEngine.考虑到网格环境的各种特征,该引擎采用分级处理机制,可以同时调用Web服务、网格服务以及网格调度器.本文将介绍该引擎的结构和具体实现技术,并且与GWES引擎的性能进行比较,最后描述了该引擎在生物信息学计算中的示范应用.  相似文献   

8.
目前基于业务流程模型控制规则引擎的工作流引擎已经开始提倡使用。针对这种情况,基于BPMN业务流程模型的工作流引擎,提出一种适用于业务流程模型和规则集成与执行的推理引擎架构。该架构引入XTT2的规则表示,集成了jBPM工作流管理系统和HeaRT规则引擎,由工作流引擎控制专用规则推理引擎执行规则决策表运行。原型实现表明了该架构可实现规则任务的可视化设计,并支持对得到的规则任务模型的形式验证。  相似文献   

9.
本文首先分析数据仓库的概念、特点及体系架构,指出了构建数据仓库ETL工具的必要性,接着对工作流和元数据技术进行介绍和分析,并在对数据仓库ETL工具分析的基础上,提出了构建基于工作流引擎和元数据驱动的数据仓库ETL工具的解决方案.  相似文献   

10.
许多传统的工作流管理系统都只提供单层的过程模型,整个业务流程都在一个过程模型中详细描述,使得工作流的模型过于复杂.文中引入工作流的分层模型和嵌套分布执行机制,增强了系统对异构、分布应用的支持力度,提高了对业务流程监视的可视程度,同时也给系统安全机制的实现提供了基础.文中着重讨论其体系结构、工作流模型的建立、工作流引擎和多引擎间的协调机制等.  相似文献   

11.
刘豹 《软件》2013,(10):73-77
传统的ETL工具有集中执行、对服务器性能要求高等缺点,针对这些缺点,本文提出了一种基于Hadoop的分布式ETL系统。该系统在分布式文件系统基础上,利用相应的数据过滤器和Hadoop强大的并行处理能力,实现了集群分布式执行ETL流程。该分布式ETL系统具有较高的可扩展性和吞吐效率,同时能够自动实现负载均衡,执行效率高。  相似文献   

12.
Web服务合成已成为一种重要的分布式网络应用开发模式。网络应用要求Web服务具有较高的可用性,进而要求Web服务必须具有快速恢复的特点。基于分布式Web服务合成的模式开发合成服务的恢复机制适合网络环境下的服务交互方式。分布式Web服务合成模式中包含有一个中心合成引擎和若干本地合成引擎,恢复机制由中心合成引擎与本地合成引擎合作实现,确保了唯一执行语义,同时又可保持Web服务的特性,并降低I/O代价。  相似文献   

13.
In this paper, we leverage the previous work on the SHIWA bundling format and expand on this specification in order to facilitate workflow execution within a multi-workflow environment. We introduce a scalable and robust execution pool environment that supports workflows consisting of sub-workflows built upon a multitude of different workflow engines and environments, and also provide a common workflow representation for seamless connectivity through serialization to workflow bundles. We also present a meta-workflow scenario based upon this system. Workflow bundles employ the lightweight Open Archives Initiative Object Reuse and Exchange (ORE) Web-based standard, to provide a common format for representing and sharing workflows and the associated metadata required for their execution. This generalized bundling approach is already available within five workflow engines and has proven a useful environment for inter-workflow experimentation. The execution pool facilitates federated access to multiple distributed computing infrastructures supported by the underlying workflow engines subscribed to the pool. Workflow bundles are exposed using the eXtensible Messaging and Presence Protocol (XMPP), which provides the necessary communication backbone to enable multiple workflow engine agents to asynchronously publish and subscribe to bundles in meta-workflow pipelines. We present experiments showing the scalability and robustness of the pool execution approach with results showing that overheads remain controlled for up to 150 workflow agents, and that agent failures have very limited impact. We then demonstrate the applicability of our architecture by describing how a Java-based music analysis workflow can be distributed within such a multi-workflow environment consisting of the Triana and MOTEUR workflow engines.  相似文献   

14.
当前工业界标准的业务流程描述语言BPEL是一种集中式的编制语言,通常业务执行时由集中式引擎控制,易成为系统的性能瓶颈。提出一种BPEL业务流程解析方法,以与服务直接相关的活动为基础,将流程划分出若干基本单元,通过递归算法将其它活动归属到相关单元,产生多个子流程,实现对原有流程的分割,使业务流程可以分布式执行。实现了一个分布式业务执行原型系统,验证了解析方法的有效性。  相似文献   

15.
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。  相似文献   

16.
在Web服务组合执行引擎中解耦流程执行和成分Web服务调用,设计和实施了带有双控制反馈控制环的流程执行结构,反馈控制环分别位于流程执行器与服务代理之上。仿真结果表明:解耦流程执行和成分Web服务调用提高了引擎资源的使用效率,增加了流程执行的并发性,提高了引擎的吞吐量;引入QoS反馈控制结构,使得引擎在组合服务负荷变化时,可为不同的请求服务等级提供服务响应时间保障。  相似文献   

17.
Wide-column NoSQL databases are an important class of NoSQL (Not only SQL) databases which scale horizontally and feature high access performance on sparse tables. With current trends towards big Data Warehouses (DWs), it is attractive to run existing business intelligence/data warehousing applications on higher volumes of data in wide-column NoSQL databases for low latency by mapping multidimensional models to wide-column NoSQL models or using additional SQL add-ons. For examples, applications like retail management can run over integrated data sets stored in big DWs or in the cloud to capture current item-selling trends. Many of these systems also employ Snapshot Isolation (SI) as a concurrency control mechanism to achieve high throughput for read-heavy workloads. SI works well in a DW environment, as analytical queries can now work on (consistent) snapshots and are not impacted by concurrent update jobs performed by online incremental Extract-Transform-Load (ETL) flows that refresh fact/dimension tables. However, the snapshot made available in the DW is often stale, since at the moment when an analytical query is issued, the source updates (e.g. in a remote retail store) may not have been extracted and processed by the ETL process in time due to high input data volume or slow processing speed. This staleness may cause incorrect results for time-critical decision support queries. To address this problem, snapshots which are supposed to be accessed by analytical queries need to be first maintained by corresponding ETL flows to reflect source updates based on given freshness needs. Snapshot maintenance in this work means maintaining the distributed data partitions that are required by a query. Since most NoSQL databases are not ACID compliant and do not provide full-fledged distributed transaction support, snapshot may be inconsistently derived when its data partitions are updated by different ETL maintenance jobs.This paper describes an extended version of HBelt system [1] which tightly integrates the wide-column NoSQL database HBase with a clustered & pipelined ETL engine. Our objective is to efficiently refresh HBase tables with remote source updates while a consistent snapshot is guaranteed across distributed partitions for each scan request in analytical queries. A consistency model is defined and implemented to address so-called distributed snapshot maintenance. To achieve this, ETL jobs and analytical queries are scheduled in a distributed processing environment. In addition, a partitioned, incremental ETL pipeline is introduced to increase the performance of ETL (update) jobs. We validate the efficiency gain in terms of data pipelining and data partitioning using the TPC-DS benchmark, which simulates a modern decision support system for a retail product supplier. Experimental results show that high query throughput can be achieved in HBelt when distributed, refreshed snapshots are demanded.  相似文献   

18.
黄怀毅  杨路明 《微机发展》2008,18(6):202-205
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。  相似文献   

19.
基于分布式数据仓库技术的ETL系统的研究与应用   总被引:6,自引:0,他引:6  
ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统,并使用了XML技术实现异构数据源的通用接口访问方式。系统运行表明该解决方案具有好的使用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号