首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
ETL执行过程的优化研究   总被引:2,自引:0,他引:2  
提出了一个ETL(Extraction-Transformation-Loading)优化框架并对ETL过程的逻辑优化进行了研究,把优化问题建模成状态空间搜索问题。每个ETL工作流看作一种状态,通过一系列正确的状态变换来构造状态空间,并且提出算法来获得最小执行时间的ETL工作流。理论分析和实践表明其具有良好效果。  相似文献   

2.
姚全珠  白敏  黄蔚 《计算机工程》2009,35(19):91-93,9
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。  相似文献   

3.
阐述了ETL工具在数据仓库系统的建设过程中所处的重要地位,提出了一个基于工作流引擎的ETL系统设计。系统实现一个轻量级的工作流引擎作为ETL流程的调度中心,利用元数据保存记录ETL流程的信息,创建基于数据库引擎的ETL操作组件库来完成从数据源到数据目标的数据映射,并初步实现了对大数据环境数据抽取的支持,从而构建了一个具有良好可扩展性和开放性的ETL系统。  相似文献   

4.
云计算环境下适于工作流的数据布局方法   总被引:1,自引:0,他引:1  
云计算环境下的工作流管理系统,适合支持需要高效的计算性能和大规模存储的跨组织业务协作,在应急管理、供应链管理和健康医疗等领域具有广泛的应用前景.然而,在大量并发工作流实例的情况下,当工作流的任务需要不同位置的数据,特别是涉及客户端隐私数据时,如何有效地存放这些数据、优化数据传输就成为其中的挑战.为此,云计算环境下适于工作流的数据布局方法能够根据数据的隐私要求把数据存放到云端和客户端,并且在工作流运行时根据控制流动态地调整数据布局,减少数据传输.实验表明,该方法能够有效减少工作流运行时的数据传输.  相似文献   

5.
工作流日志数据中可能记录着非常有价值的信息,它们对于流程优化和工作流挖掘具有重要意义.然而,传统工作流系统缺乏对工作流日志迁移的有效支持.基于对工作流日志数据的分析,提出了一种支持日志迁移的分布式工作流系统框架.该框架通过工作流实例数据与历史数据的分离,以实现工作流日志数据的分布式管理.基于开源工作流Shark,通过扩展WfMC相关接口,给出了该框架的实现方案.  相似文献   

6.
ETL工作流活动优先级的确定及并行实现*   总被引:1,自引:0,他引:1  
ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。  相似文献   

7.
本文首先分析数据仓库的概念、特点及体系架构,指出了构建数据仓库ETL工具的必要性,接着对工作流和元数据技术进行介绍和分析,并在对数据仓库ETL工具分析的基础上,提出了构建基于工作流引擎和元数据驱动的数据仓库ETL工具的解决方案.  相似文献   

8.
网格工作流中的调度问题是一个复杂且具有挑战性的问题,它影响着网格工作流执行成功与否及效率的高低.针对具有时序和因果约束关系的网格工作流优化调度问题进行了研究,建立了网格工作流的任务调度模型和调度问题的目标模型,并应用微粒群算法来优化网格工作流中任务的调度.实验结果证明该算法优于传统的调度算法.  相似文献   

9.
工作流作为企业流程建模的核心技术,具有方便性、灵活性和可配置性的特点,极大的弥补了传统企业信息系统的不足。工作流引擎作为工作流重要的实现手段,是大量办公自动化系统的核心组件,其流转过程的理论研究具有重要的理论和现实意义。
  本文提出了用确定的有限自动机来研究工作流运转过程的方法,将工作流运转中的各个步骤映射为各项状态和迁移过程,采用确定的有限自动机的观点来描绘和阐述,从而得到了工作流流转的数学模型——自动机的状态迁移图。在此基础上,可以采用自动机理论来分析和研究中工作流的流转过程,从而改善和优化工作流审批流程。  相似文献   

10.
权限的分配是工作流系统访问控制中的核心问题.本文以任务状态为基础,用二维矩阵描述角色与任务、任务与状态、状态与权限之间的关系,并利用关系运算计算给定时刻角色、任务和权限之间的关系,实现了对角色权限的动态分配,提高了数据访问的安全性.  相似文献   

11.
State-space optimization of ETL workflows   总被引:3,自引:0,他引:3  
Extraction-transformation-loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization, and insertion into a data warehouse. In this paper, we derive into the logical optimization of ETL processes, modeling it as a state-space search problem. We consider each ETL workflow as a state and fabricate the state space through a set of correct state transitions. Moreover, we provide an exhaustive and two heuristic algorithms toward the minimization of the execution cost of an ETL workflow. The heuristic algorithm with greedy characteristics significantly outperforms the other two algorithms for a large set of experimental cases.  相似文献   

12.
Extract, Transform and Load (ETL) processes organized as workflows play an important role in data warehousing. As ETL workflows are usually complex, various ETL facilities have been developed to address their control-flow process modeling and execution control. To evaluate the quality of ETL facilities, Synthetic ETL workflow test cases, consisting of control-flow and data-flow aspects are needed to check ETL facility functionalities at construction time and to validate the correctness and performance of ETL facilities at run time. Although there are some synthetic workflow and data set test case generation approaches existed in literatures, little work is done to consider both aspects at the same time specifically for ETL workflow generators. To address this issue, this paper proposes a schema aware ETL workflow generator with which users can characterize their ETL workflows by various parameters and get ETL workflow test cases with control-flow of ETL activities, complied schemas and associated recordsets. Our generator consists of three steps. First, with type and ratio of individual activities and their connection characteristic parameter specification, the generator will produce ETL activities and form ETL skeleton which determine how generated activities are cooperated with each other. Second, with schema transformation characteristic parameter specification, e.g. ranges of numbers of attributes, the generator will resolve attribute dependencies and refine input/output schemas with complied attributes and their data types. In the last step, recordsets are generated following cardinality specifications. ETL workflows in specific patterns are produced in the experiment in order to show the ability of our generator. Also experiments to generate thousands of ETL workflow test cases in seconds have been done to verify the usability of the generator.  相似文献   

13.
Data sources (DSs) being integrated in a data warehouse frequently change their structures/schemas. As a consequence, in many cases, an already deployed ETL workflow stops its execution, yielding errors. Since in big companies the number of ETL workflows may reach dozens of thousands and since structural changes of DSs are frequent, an automatic repair of an ETL workflow after such changes is of high practical importance. In our approach, we developed a framework, called E-ETL, for handling the evolution of an ETL layer. In the framework, an ETL workflow is semi-automatically or automatically (depending on a case) repaired as the result of structural changes in DSs, so that it works with the changed DSs. E-ETL supports two different repair methods, namely: (1) user defined rules, (2) and Case-Based Reasoning. In this paper, we present how Case-Based Reasoning may be applied to repairing ETL workflows. In particular, we contribute an algorithm for selecting the most suitable case for a given ETL evolution problem. The algorithm applies a technique for reducing cases in order to make them more universal and capable of solving more problems. The algorithm has been implemented in prototype E-ETL and evaluated experimentally. The obtained results are also discussed in this paper.  相似文献   

14.
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。  相似文献   

15.
增量ETL过程的并行化是提高ODS数据实时性的有效途径。结合通信顺序进程理论研究了增量ETL过程模型,形式化分析了增量ETL过程事件在并行环境下执行状态的变换过程,提出了增量ETL过程并行调度算法,解决了增量ETL过程在并行环境下调度策略的问题。应用及实践表明,模型及算法具有源系统负载小、数据的实时性高等特点。  相似文献   

16.
基于多Agent与工作流的分布式ETL引擎的研究   总被引:1,自引:0,他引:1  
丁进  郭朝珍 《计算机应用》2009,29(1):319-322
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。  相似文献   

17.
面向数据质量的ETL框架的设计与实现   总被引:1,自引:0,他引:1  
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构.根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等.该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理.基于该设计思想开发一个ETL工具-DQETL.DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理.最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号