共查询到16条相似文献,搜索用时 140 毫秒
1.
ETL系统是构建数据仓库的关键组件。通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务。如何提高数据处理效率和增强系统稳定性是值得研究的问题。根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是“化整为零”的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率。通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果。 相似文献
2.
传统的ETL工具有集中执行、对服务器性能要求高等缺点,针对这些缺点,本文提出了一种基于Hadoop的分布式ETL系统。该系统在分布式文件系统基础上,利用相应的数据过滤器和Hadoop强大的并行处理能力,实现了集群分布式执行ETL流程。该分布式ETL系统具有较高的可扩展性和吞吐效率,同时能够自动实现负载均衡,执行效率高。 相似文献
3.
ETL过程是构建数据仓库的重要步骤。大多数现有ETL系统在数据量较大时处理效率偏低。根据ETL在公共数据中心的实际应用改进了原有的ETL结构。鉴于公共数据保密性的特点,设计了数据不同的获取方式;在设置数据转换规则的过程中结合相应领域知识,保证数据质量;前置机之间实行负载均衡,同时把数据转换的不同步骤分配到两台ETL服务器来完成,保证抽取和转换效率。通过实验证明了该ETL系统具有较好的效率。 相似文献
4.
基于电信行业的数据仓库,对其数据抽取、数据转换和数据装载的实现方法进行了探讨,这些方法对其他行业数据仓库的构建具有 借鉴作用。 相似文献
5.
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。 相似文献
6.
一种可靠的数据仓库中ETL策略与架构设计 总被引:18,自引:0,他引:18
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。 相似文献
7.
基于数据仓库的通用ETL工具的设计与实现 总被引:14,自引:1,他引:14
讨论了一种基于异构数据源通用ETL工具的设计方法和实现过程,它能实现异种数据源的数据转换,并将数据装载到中心数据库中,具有一定易用性、灵活性和扩展性。该工具根据索引库来获得目标数据库与源数据库的映射关系。 相似文献
8.
通过对基于数据仓库的ETL过程进行的研究,提出了一种通用ETL过程的解决方案,为企业管理者的决策过程提供了有力支持,同时给出了一套完整的系统体系架构。 相似文献
9.
10.
ETL系统是构建数据仓库的关键组件.通过数据抽取、转换和装载工作,完成处理海量数据和构建数据仓库的任务.如何提高数据处理效率和增强系统稳定性是值得研究的问题.根据电信资源数据省级集中分析系统下的实际应用背景,提出了一种轻量级架构的ETL系统,该架构采取的是"化整为零"的思想,把原先核心的抽取和转换的任务部分划分到各个相应的子系统中做初步的处理,这样处理的优点在于应用中减轻了核心ETL引擎的承载负担,各个抽取任务单独进行互不依赖,提高了抽取效率.通过在具体应用环境下系统运行表明采用该架构ETL系统具良好的使用效果. 相似文献
11.
基于OLE DB的数据抽取、转换和装入工具的设计与实现 总被引:10,自引:1,他引:10
本文讨论了如何利用 OL E DB接口设计与实现数据 ETL工具 .按照面向对象的开发方法 ,通过 COM技术实现 OL E DB接口和 DTS接口 ,能够迅速地实现一个具有良好可扩展性的数据 ETL 工具 相似文献
12.
基于多Agent与工作流的分布式ETL引擎的研究 总被引:1,自引:0,他引:1
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。 相似文献
13.
数据仓库系统中Excel文档数据的ETL方法研究与实现 总被引:1,自引:0,他引:1
数据仓库的数据来源于组织内部的OLTP系统和其它格式的内部、外部数据,它们之中的许多是按照Microsoft Excel格式予以组织的,如何通过ETL程序将该格式的数据转换成数据仓库中有用的信息是目前亟待解决的问题.首先叙述了Excel文件的结构和Java Excel API的使用方法,给出了Java读取Excel文档的操作步骤,结合实例说明了从Excel文件向数据仓库实现抽取及存储的过程和方法. 相似文献
14.
15.
学术期刊中的附加数据是进行数据分析和文本挖掘的重要依据,具有的分散性、多样性和时效性的特点,难以管理和维护,文章将这类数据称HotData。HotDataSpider以生物医学类文献为研究对象,对生物信息学领域15本国际权威期刊提供的附加数据进行分析,实现了自动抽取、转换,最终将整理好的数据集批量导入到上海生物信息技术研究中心提供的HotData主题数据库中。 相似文献
16.
改进传统ETL数据抽取工具的技术复杂,抽取效率低等方面不足,设计实现了一种新的数据抽取工具——JMELT抽取工具,并简单介绍了JMELT工具的关键技术及其功能实现,并对工具的有效性作了验证。 相似文献