首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 74 毫秒
1.
Extraction-Transformation-loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization and insertion into a data warehouse. Literature and personal experience have guided us to conclude that the problems concerning the ETL tools are primarily problems of complexity, usability and price. To deal with these problems we provide a uniform metamodel for ETL processes, covering the aspects of data warehouse architecture, activity modeling, contingency treatment and quality management. The ETL tool we have developed, namely , is capable of modeling and executing practical ETL scenarios by providing explicit primitives for the capturing of common tasks. provides three ways to describe an ETL scenario: a graphical point-and-click front end and two declarative languages: XADL (an XML variant), which is more verbose and easy to read and SADL (an SQL-like language) which has a quite compact syntax and is, thus, easier for authoring.  相似文献   

2.
数据仓库中ETL技术的研究   总被引:43,自引:0,他引:43  
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。  相似文献   

3.
数据仓库中ETL技术的探讨与实践   总被引:9,自引:0,他引:9  
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。  相似文献   

4.
数据映射在数据仓库项目中扮演十分重要的角色,它是ETL开发的前提条件,也是ETL开发过程中详细设计的一部分。本文在中国太平洋保险公司(CPIC)建设企业数据仓库(EDW)的项目背景下对企业数据仓库中的元数据应用作了研究,记述一个简单的元数据驱动的数据映射工具的开发过程,以说明元数据对数据集成工具开发的重要性。  相似文献   

5.
数据ETL研究综述   总被引:8,自引:2,他引:6  
数据抽取、转换和装载(Extraction, Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针对当前ETL研究中存在的一些问题和需要考虑的各种因素,从ETL各个阶段存在的主要问题出发,列举了各种研究方法及研究成果,并进行了分析。最后,总结并提出了E`I'I的未来研究方向和今后工作的建议。  相似文献   

6.
数据映射在数据仓库项目中扮演十分重要的角色,它是ETL开发的前提条件,也是ETL开发过程中详细设计的一部分。本文在中国太平洋保险公司(CPIC)建设企业数据仓库(EDW)的项目背景下对企业数据仓库中的元数据应用作了研究,记述一个简单的元数据驱动的数据映射工具的开发过程,以说明元数据对数据集成工具开发的重要性。  相似文献   

7.
State-space optimization of ETL workflows   总被引:3,自引:0,他引:3  
Extraction-transformation-loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization, and insertion into a data warehouse. In this paper, we derive into the logical optimization of ETL processes, modeling it as a state-space search problem. We consider each ETL workflow as a state and fabricate the state space through a set of correct state transitions. Moreover, we provide an exhaustive and two heuristic algorithms toward the minimization of the execution cost of an ETL workflow. The heuristic algorithm with greedy characteristics significantly outperforms the other two algorithms for a large set of experimental cases.  相似文献   

8.
ETL过程是构建数据仓库的重要步骤。大多数现有ETL系统在数据量较大时处理效率偏低。根据ETL在公共数据中心的实际应用改进了原有的ETL结构。鉴于公共数据保密性的特点,设计了数据不同的获取方式;在设置数据转换规则的过程中结合相应领域知识,保证数据质量;前置机之间实行负载均衡,同时把数据转换的不同步骤分配到两台ETL服务器来完成,保证抽取和转换效率。通过实验证明了该ETL系统具有较好的效率。  相似文献   

9.
Data warehouse architectures rely on extraction, transformation and loading (ETL) processes for the creation of an updated, consistent and materialized view of a set of data sources. In this paper, we support these processes by proposing a tool that: (1) allows the semi-automatic definition of inter-attribute semantic mappings, by identifying the parts of the data source schemas which are related to the data warehouse schema, thus supporting the extraction process; and (2) groups the attribute values semantically related thus defining a transformation function for populating with homogeneous values the data warehouse.Our proposal couples and extends the functionalities of two previously developed systems: the MOMIS integration system and the RELEVANT data analysis system. The system has been experimented within a real scenario concerning the creation of a data warehouse for enterprises working in the beverage and food logistic area. The results showed that the coupled system supports effectively the extraction and transformation processes.  相似文献   

10.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

11.
E T L综述   总被引:4,自引:0,他引:4  
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。  相似文献   

12.
数据ETL(Data Extraction,Transformation and Loading)主要用来实现异构多数据源的数据集成,是数据仓库、数据挖掘以及商业智能等技术的基石,具有数据抽取、数据转换和数据装载功能。本文综述了ETL发展的背景、目前广泛研究的领域,论述了ETL在异构数据源集成和脏数据的检测与解决两方面面临的挑战,指出ETL将呈现出通用化、高效化、智能化三大发展趋势。  相似文献   

13.
本文设计了教学管理数据仓库ETL架构,提出了数据仓库的两段迁移法,利用临时数据库来减轻业务数据库压力,有效克服了传统ETL架构的缺陷.本文还详细说明如何利用SQL ServerDTS实现这两阶段ETL过程.  相似文献   

14.
本文设计了教学管理数据仓库ETL架构,提出了数据仓库的两段迁移法,利用临时数据库来减轻业务数据库压力,有效克服了传统ETL架构的缺陷。本文还详细说明如何利用SQL Server DTS实现这两阶段ETL过程。  相似文献   

15.
吴远红  徐宏炳 《计算机工程与设计》2007,28(10):2262-2264,2269
数据抽取-转换-重载(ETL)是构建和维护数据仓库的基本构件,由于它处理的是海量数据,如何加快响应时间成为值得研究的问题.对ETL过程的逻辑优化进行了研究,把优化问题建模成状态空间搜索问题.把每个ETL工作流看作一种状态,通过一系列正确的状态变换来构造状态空间,并且提出算法来获得最小执行时间的ETL工作流.  相似文献   

16.
刘强  翁惠玉 《计算机工程》2004,30(Z1):30-31
基于电信行业的数据仓库,对其数据抽取、数据转换和数据装载的实现方法进行了探讨,这些方法对其他行业数据仓库的构建具有 借鉴作用。  相似文献   

17.
该文介绍了ETL的概念,分析了ETL在数据仓库中的应用,并介绍了一个ETL工具及其应用实例。通过利用ETL工具,可以将数据提取、清理、转换再加载到数据仓库。  相似文献   

18.
地理编码在空间数据仓库ETL中的应用   总被引:5,自引:0,他引:5  
空间数据仓库可以有效地管理和利用空间信息以便支持空间分析和决策支持.在空间数据的抽取、转换和加载中如何有效地把非空间信息与空间信息融合起来,是空间数据仓库ETL实现的难点.将地理编码技术引入到空间数据仓库ETL中,给出了融合地理编码模块的ETL体系机构.同时为了提高地址匹配能力,将动态规划算法应用到地理编码地址匹配中,并对算法做了改进.给出了完整的应用示例。  相似文献   

19.
在对数据仓库集成技术研究的基础上,结合一些有代表性的商用高端数据仓库产品,设计了一个基于数据仓库的集成框架MI-DAWA,并且实现了MI-DAWA对元数据管理工具、ETL工具,OLAP SERVER等商用高端数据仓库产品的集成,能有效提高数据仓库建设的效率,非专业人员也可快速实现一个数据仓库过程.MI-DAWA已经在本地某行业数据仓库及辅助决策系统中投入了实际应用.最终实现业务分析人员驱动的、程序化的数据仓库过程是MI_DAWA正待解决的问题.  相似文献   

20.
《Information Systems》2005,30(7):492-525
Extraction–transformation–loading (ETL) tools are pieces of software responsible for the extraction of data from several sources, their cleansing, customization and insertion into a data warehouse. In this paper, we delve into the logical design of ETL scenarios and provide a generic and customizable framework in order to support the DW designer in his task. First, we present a metamodel particularly customized for the definition of ETL activities. We follow a workflow-like approach, where the output of a certain activity can either be stored persistently or passed to a subsequent activity. Also, we employ a declarative database programming language, LDL, to define the semantics of each activity. The metamodel is generic enough to capture any possible ETL activity. Nevertheless, in the pursuit of higher reusability and flexibility, we specialize the set of our generic metamodel constructs with a palette of frequently used ETL activities, which we call templates. Moreover, in order to achieve a uniform extensibility mechanism for this library of built-ins, we have to deal with specific language issues. Therefore, we also discuss the mechanics of template instantiation to concrete activities. The design concepts that we introduce have been implemented in a tool, arktos ii, which is also presented.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号