首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
本文首先分析数据仓库的概念、特点及体系架构,指出了构建数据仓库ETL工具的必要性,接着对工作流和元数据技术进行介绍和分析,并在对数据仓库ETL工具分析的基础上,提出了构建基于工作流引擎和元数据驱动的数据仓库ETL工具的解决方案.  相似文献   

2.
数据映射在数据仓库项目中扮演十分重要的角色,它是ETL开发的前提条件,也是ETL开发过程中详细设计的一部分。本文在中国太平洋保险公司(CPIC)建设企业数据仓库(EDW)的项目背景下对企业数据仓库中的元数据应用作了研究,记述一个简单的元数据驱动的数据映射工具的开发过程,以说明元数据对数据集成工具开发的重要性。  相似文献   

3.
数据映射在数据仓库项目中扮演十分重要的角色,它是ETL开发的前提条件,也是ETL开发过程中详细设计的一部分。本文在中国太平洋保险公司(CPIC)建设企业数据仓库(EDW)的项目背景下对企业数据仓库中的元数据应用作了研究,记述一个简单的元数据驱动的数据映射工具的开发过程,以说明元数据对数据集成工具开发的重要性。  相似文献   

4.
基于元数据驱动的ETL架构设计   总被引:1,自引:0,他引:1  
ETL(Extract-Transform-Load)是数据仓库获得高质量数据的重要环节,一个设计良好、功能强大的ETL工具对于构建一个数据质量、结构良好的数据仓库有着重要意义。首先分析了传统ETL架构的局限性以及元数据管理对ETL过程的重要性,然后对传统的ETL架构进行改进,结合元数据管理思想,提出并设计了一种新的基于元数据驱动的ETL架构。结果表明,该ETL架构通过增加数据中转区并使整个ETL过程在元数据的指导下进行,有效保证了数据仓库的数据质量,提高了数据装载的效率,减轻了数据源和目标数据库的压力,增加了数据转换的灵活性和可靠性。  相似文献   

5.
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。  相似文献   

6.
针对建立数据仓库时数据源存在结构多样性和语义异质性的问题,提出了本体驱动ETL过程的设计方法.通过元数据抽象以及语义建立本体,并运用OWL实现本体;再根据局部本体与全局本体之间的关系建立本体映射;最后运用本体映射和本体推理驱动ETL过程.该方法能有效解决数据源异构问题,并实现ETL过程的部分自动化.  相似文献   

7.
一种标准的ETL的设计思想及其实现   总被引:5,自引:0,他引:5  
元数据在数据仓库系统中占据着十分重要的地位,其中存放着许多重要的信息,尤其是对于数据仓库的ETL过程,可以说是ETL的指挥中心。提出了以CWM元数据模型标准为基础来开发标准的ETL的设计思想,并描述了具体的开发步骤。  相似文献   

8.
在对数据仓库集成技术研究的基础上,结合一些有代表性的商用高端数据仓库产品,设计了一个基于数据仓库的集成框架MI-DAWA,并且实现了MI-DAWA对元数据管理工具、ETL工具,OLAP SERVER等商用高端数据仓库产品的集成,能有效提高数据仓库建设的效率,非专业人员也可快速实现一个数据仓库过程.MI-DAWA已经在本地某行业数据仓库及辅助决策系统中投入了实际应用.最终实现业务分析人员驱动的、程序化的数据仓库过程是MI_DAWA正待解决的问题.  相似文献   

9.
结构图ETL概念模型的设计方法   总被引:2,自引:0,他引:2       下载免费PDF全文
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。  相似文献   

10.
基于本体的ETL设计研究   总被引:1,自引:0,他引:1  
吴飞  邢桂芬  邢玉萍 《计算机工程与设计》2007,28(7):1517-1519,1571
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成.  相似文献   

11.
The development of Extract–Transform–Load (ETL) processes is the most complex, time-consuming and expensive phase of data warehouse development. Yet, the dynamics of modern business systems demand a more agile and flexible approach to their development. As a result, current research in this area is focused on ETL process conceptualization and the automation of ETL process development. This paper proposes a novel solution for automating ETL processes using the domain-specific modeling (DSM) approach. The proposed solution is based on the formal specification of ETL processes and the implementation of such formal specifications. Thus, in accordance with the DSM approach, several new domain-specific languages (DSLs) are introduced, each defining concepts relevant for a specific aspect of an ETL process. The focus of this paper is the actual implementation of the formal specification of an ETL process. To this end, a specific ETL platform (ETL-PL) is introduced to technologically support both the modeling of ETL processes (i.e., the creation of models in accordance with the introduced DSLs) and the automated transformation of the created models into the executable code of a specific application framework (representing ETL-PL’s execution environment). It should be emphasized that ETL-PL actually presumes the dynamic execution of ETL models or, more precisely, the executable code is generated at runtime. Thus the execution environment consists of code generator components and the components implementing the application framework. ETL-PL has been implemented as an extension of the .NET platform.  相似文献   

12.
数据中心基础数据积累通常使用三种手段:1)ETL技术;2)数据联邦技术;3)中间件技术.但三种技术侧重各有不同,不能同时满足数据集成的持久性与可用性.结合技术优势提出数据虚拟整合,为解决数据虚拟异构数据模型间的数据转换问题,通过对数据虚拟的分析,提出了一种基于元数据驱动的数据虚拟系统体系结构.构建了用于描述和存储映射策略的支撑元模型,并建立了相应数据路由策略.提出了对等主键思想,降低了处理阻抗.  相似文献   

13.
参考《中华人民共和国国家标准地理信息元数据ISO 19115:2003》、《中国科学院科学数据库核心元数据标准INF105-SDB-2-105:2004》,构建出社会经济统计信息元数据。利用元数据驱动技术,对分布、异构、多时段的社会经济统计数据进行整合,实现了G IS数据与统计数据的有效融合,满足了系统自适应统计数据不断变化的需求,促进了统计信息化和统计信息产业化。该方法已经成功应用于863课题"国家社会经济统计地理信息系统建设"中。  相似文献   

14.
基于电信数据仓库系统的ETL研究与设计   总被引:4,自引:0,他引:4  
电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading).通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统.采取XML格式编辑整个ETL过程,实现部分图形化交互界面,并针对电信系统大数据量的特点,提出性能优化及改进的方法,提高了ETL效率.  相似文献   

15.
Scientists' ability to synthesize and reuse long-tail scientific data lags far behind their ability to collect and produce these data. Many Earth Science Cyberinfrastructures enable sharing and publishing their data over the web using metadata standards. While profiling data attributes advances the Linked Data approach, it has become clear that building information-networks among distributed data silos is essential to increase their integration and reusability. In this research, we developed a Long-Tail Information-Network (LTIN) model, which uses a metadata-driven approach to build semantic information-networks among datasets published over the web and aggregate them around environmental events. The model identifies and characterizes the spatial and temporal contextual association links and dependencies among datasets. This paper presents the design and application of the LTIN model, and an evaluation of its performance. The model capabilities were demonstrated by inferring the information-network of a stream discharge located at the downstream end of the Illinois River.  相似文献   

16.
Data warehouse loading and refreshment is typically performed by means of complex software processes called extraction–transformation–loading (ETL). In this paper, we propose a system based on a suite of visual languages for mastering several aspects of the ETL development process, turning it into a visual programming task. The approach can be easily generalized and applied to other data integration contexts beyond data warehouses. It introduces two new visual languages that are used to specify the ETL process, which can also be represented by means of UML activity diagrams. In particular, the first visual language supports data manipulation activities, whereas the second one provides traceability information of attributes to highlight the impact of potential transformations on integrated schemas depending on them. Once the whole ETL process has been visually specified, the designer might invoke the automatic generation of an activity diagram representing a possible orchestration of it based on its dependencies. The designer can edit such a diagram to modify the proposed orchestration provided that changes do not alter data dependencies. The final specification can be translated into code that is executable on the data sources. Finally, the effectiveness of the proposed approach has been validated through a user study in which we have compared the effort needed to design an ETL process in our approach with respect to the one required with main visual approaches described in the literature.Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

17.
ETL是数据仓库获得高质量数据的关键环节,在数据仓库的构建和实施中占有重要地位。针对传统ETL串行执行方式的不足,提出一种基于Agent和活动优先度相结合的ETL并行执行方法。该方法计算ETL执行过程中各个活动的优先度,利用Agent理论和多线程并行计算技术实现并行执行具有相同优先度且相互间没有依赖关系的ETL活动。实验结果表明,该方法在数据量较大时具有较好的加速比,提高了ETL过程的执行效率。  相似文献   

18.
数据ETL研究综述   总被引:8,自引:2,他引:6  
数据抽取、转换和装载(Extraction, Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针对当前ETL研究中存在的一些问题和需要考虑的各种因素,从ETL各个阶段存在的主要问题出发,列举了各种研究方法及研究成果,并进行了分析。最后,总结并提出了E`I'I的未来研究方向和今后工作的建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号