首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
ETL工具从异构数据源抽取数据,并将数据清洗、规范化后装载入数据仓库.数据源的多样性及数据集的复杂性为ETL工具的设计提出了挑战.本文设计并实现了一种基于微软DirectShow技术的ETL工具框架,使用通用数据访问接口屏蔽数据源的差异.将转换图的概念引入ETL工具的设计中,灵活应对复杂的ETL转换.  相似文献   

2.
本文研究了数据仓库ETL技术,并将ETL技术运用在企业信息集成过程中。本文以PDM和ERP系统为研究对象,阐述了ETL用于数据集成的方法、过程和集成架构。开发了可视化集成开发ETL工具,利用该工具从PDM系统中获取产品结构数据,实现PDM和ERP系统的数据集成。运用ETL技术能够简化企业信息集成开发,具有低耦合性、易于扩展的特点。  相似文献   

3.
基于OLE DB的数据抽取、转换和装入工具的设计与实现   总被引:10,自引:1,他引:10  
本文讨论了如何利用 OL E DB接口设计与实现数据 ETL工具 .按照面向对象的开发方法 ,通过 COM技术实现 OL E DB接口和 DTS接口 ,能够迅速地实现一个具有良好可扩展性的数据 ETL 工具  相似文献   

4.
针对传统ETL(Extraction,Transformation,Loading)流程的开发周期长的问题,提出一种基于SCA(Service Component Architecture)的ETL架构。该架构将传统的ETL具体流程实现分为两大类组件:第一大类组件解决数据质量问题,而第二大类组件解决维度建模问题。根据ETL各流程中不同问题的特点,选择适合的ETL工具及实现技术制作其相应组件,并通过SCA容器及其装配机制把组件发布成Web服务,使得不同的ETL工具及实现之间可以相互调用,同时提高复用性和扩展性。给出实例验证了该架构的有效性。  相似文献   

5.
增量式ETL工具的研究与实现   总被引:13,自引:0,他引:13  
利用数据源的增量数据对数据仓库进行维护,可以有效提高ETL效率.现有通用ETL工具在增量抽取方面存在…些问题,如不能抽取多个异构数据源的增量数据以及在处理增量数据时造成数据丢失的异常问题.本文从实践角度设计的增量式ETL工具采用集成多种增量数据捕获方式,解决异构数据源在捕获增量数据上的差异;在数据处理过程中,通过辅助表的手段解决了数据丢失的问题.在文章的最后,还介绍了ETL过程中数据转换和转换调度的实现.  相似文献   

6.
数据ETL工具通用框架设计   总被引:18,自引:0,他引:18  
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。  相似文献   

7.
面向数据集成的ETL系统设计与实现   总被引:8,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

8.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

9.
基于数据仓库的通用ETL工具的设计与实现   总被引:14,自引:1,他引:14  
讨论了一种基于异构数据源通用ETL工具的设计方法和实现过程,它能实现异种数据源的数据转换,并将数据装载到中心数据库中,具有一定易用性、灵活性和扩展性。该工具根据索引库来获得目标数据库与源数据库的映射关系。  相似文献   

10.
数据仓库中ETL技术的探讨与实践   总被引:9,自引:0,他引:9  
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。  相似文献   

11.
数据中心系统研究与实现   总被引:1,自引:0,他引:1  
现在有许多ETL工具,其优点是通用、使用比较方便,同时也导致了其性能不能达到最优,而且也不适合大规模的远程数据采集工作。我们根据实际的数据特点和管理要求,设计和实现了一个通用的数据中心系统,以支持企业分布式异构数据的采集。  相似文献   

12.
基于元数据的ETL工具集成研究   总被引:1,自引:0,他引:1  
针对现有的ETL工具在大型信息集成系统中的应用缺陷,结合元数据技术,通过对ETL工具的集成,设计实现了基于元数据的ETL工具集成系统,并简单介绍了元数据库的设计和ETL工具集成方法.  相似文献   

13.
面向数据质量的ETL框架的设计与实现   总被引:1,自引:0,他引:1  
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构.根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等.该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理.基于该设计思想开发一个ETL工具-DQETL.DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理.最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤.  相似文献   

14.
分布式ETL负载均衡策略研究   总被引:1,自引:0,他引:1  
在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R-CN模型。在此基础上提出一种基于ETL数据分片和R-CN模型相结合的分布式ETL节点负载调度和均衡策略。此策略使ETL节点的数据处理能力有了很大的提高,有效地提高了分布式ETL的效率。  相似文献   

15.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

16.
刘豹 《软件》2013,(10):73-77
传统的ETL工具有集中执行、对服务器性能要求高等缺点,针对这些缺点,本文提出了一种基于Hadoop的分布式ETL系统。该系统在分布式文件系统基础上,利用相应的数据过滤器和Hadoop强大的并行处理能力,实现了集群分布式执行ETL流程。该分布式ETL系统具有较高的可扩展性和吞吐效率,同时能够自动实现负载均衡,执行效率高。  相似文献   

17.
ETL过程是构建数据仓库的重要步骤。大多数现有ETL系统在数据量较大时处理效率偏低。根据ETL在公共数据中心的实际应用改进了原有的ETL结构。鉴于公共数据保密性的特点,设计了数据不同的获取方式;在设置数据转换规则的过程中结合相应领域知识,保证数据质量;前置机之间实行负载均衡,同时把数据转换的不同步骤分配到两台ETL服务器来完成,保证抽取和转换效率。通过实验证明了该ETL系统具有较好的效率。  相似文献   

18.
姚全珠  白敏  黄蔚 《计算机工程》2009,35(19):91-93,9
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。  相似文献   

19.
常征  吕勇 《计算机应用》2019,39(10):2942-2947
针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文件自动分拣问题等典型的6个问题找到数据的特点,其次根据数据的特点设置合适的正则表达式和预处理算法,然后使用算法模型去除数据中的错误完成数据预处理工作。同时详细阐述了REMCS的系统逻辑结构、常见问题、对应的解决算法和代码实现方案。最后通过对兼容的数据源文件格式、能够处理的问题种类、问题处理时间、处理数据极限值等4个方面进行对比,从几组常见的数据处理问题的对比实验可知,相较于传统的ETL工具,REMCS支持csv格式、json格式、dump格式等典型的9种文件格式,能够处理全部的6种常见问题,处理时间更短,能够支持的数据极限值更大。实验结果验证了针对受限应用场景下常见的数据处理问题,REMCS具有很好的适用性和准确性。  相似文献   

20.
数据映射在数据仓库项目中扮演十分重要的角色,它是ETL开发的前提条件,也是ETL开发过程中详细设计的一部分。本文在中国太平洋保险公司(CPIC)建设企业数据仓库(EDW)的项目背景下对企业数据仓库中的元数据应用作了研究,记述一个简单的元数据驱动的数据映射工具的开发过程,以说明元数据对数据集成工具开发的重要性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号