首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
结构图ETL概念模型的设计方法   总被引:2,自引:0,他引:2       下载免费PDF全文
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。  相似文献   

2.
ETL过程的调度控制管理研究   总被引:1,自引:0,他引:1  
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。  相似文献   

3.
数据仓库ETL元模型设计   总被引:3,自引:0,他引:3  
针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题.为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往在特定的数据仓库中对ETL建模的方法,使得ETL过程较早地进入数据仓库设计阶段,实现了ETL与数据仓库在概念层上的无缝融合,减少了开发时间和成本代价.最后通过模型实际应用,验证了方法的可行性和高效性.  相似文献   

4.
ETL中的数据增量抽取机制研究   总被引:7,自引:0,他引:7  
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性.最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准.  相似文献   

5.
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。  相似文献   

6.
基于本体的ETL设计研究   总被引:1,自引:0,他引:1  
吴飞  邢桂芬  邢玉萍 《计算机工程与设计》2007,28(7):1517-1519,1571
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系.用本体元数据指导数据抽取,转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成.  相似文献   

7.
赵乐  赵宏宇  刘斌  陈彦如 《计算机应用》2021,41(z2):131-135
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取?转换?加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法.首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则...  相似文献   

8.
本文探讨了人保财险公司建立数据仓库时如何进行数据导入的设计,阐述了数据导入的设计基础和数据加载的策略。  相似文献   

9.
姚全珠  白敏  黄蔚 《计算机工程》2009,35(19):91-93,9
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。  相似文献   

10.
面向数据集成的ETL系统设计与实现   总被引:9,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

11.
黄怀毅  杨路明 《微机发展》2008,18(6):202-205
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。  相似文献   

12.
ETL是构建数据仓库的一个非常重要的环节,可以这样认为:ETL就是整个数据仓库系统乃至整个决策支持系统的基石。如何设计高效的ETL过程就成为了众多计划或正在实施数据仓库项目的企业考虑的重要问题。从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案。提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出了具体的实施步骤。  相似文献   

13.
JPPF在构建高性能ETL过程中的应用   总被引:1,自引:0,他引:1  
数据仓库中数据规模的不断膨胀和数据实时性需求的提高使得对ETL过程性能要求越来越高.通过对并行处理框架JPPF分析,提出了利用JPPF构建高性能ETL系统架构方案和一种ETL数据处理任务提交算法.经过测试和性能对比证明了该方案在处理包含大规模计算任务的ETL过程优势明显.  相似文献   

14.
梁美红  张男楠  李建  伍东  胡永泉  杨静 《微机发展》2010,(3):250-252,F0003
随着企业信息化的不断发展,石油单位将数据整合纳入到重点规划中。面对分散在各处的异构数据源进行数据整合并非易事,首先仅靠手工进行脏数据的清洗不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。ETL系统为数据整合提供了令人满意的解决方案。它可以完成数据抽取、清洗、转换、装载等任务,满足了用户对异构数据源进行整合的需求,也实现了数据的后期更新。笔者对钻井数据仓库ETL系统的设计提出了一种基于元数据的ETL体系结构,并重点设计了数据准备区、ETL管理模块、任务管理模块和元数据管理模块。该工具已在中海油田化学技术专家支持系统中得到应用。  相似文献   

15.
一种改进的分布式ETL体系结构   总被引:1,自引:0,他引:1  
在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一致性维护模块(M模块)的设计与实现。ETLM的体系结构免去了分布式数据仓库需要专门进行一致性维护的额外负担,可以更加正确、快捷、高效地支持OLAP。  相似文献   

16.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

17.
王雪  吴洁明 《微机发展》2005,15(9):117-119
文中主要针对企业信息资源共享的要求,提出了基于XML的ETL方案,有效地解决了企业数据级的信息集成问题。该方案通过对异构数据源的元数据获取,进行异构数据源的分析,并通过数据的抽取、转换和加载,最终实现了数据的集成。文中提出的ETL方案,主要采用了XML技术,充分地利用了XML语言的结构性强、自描述性好等特点。  相似文献   

18.
ETL执行的流水线优化   总被引:6,自引:1,他引:6  
ETL工具是构建和维护数据仓库的基本构件,由于它处理的是海量数据.如何有效地加快响应时间成为值得研究的问题.本文提出了ETL过程的“主表衍生”模式.并针对这种模式采用流水线算法来提高并行性从而加快ETL过程的响应时间,理论分析和实验表明具有好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号