首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

2.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

3.
在研究ETL(Extract,Transform,Load)流程的基础上,结合电信运营数据的特点,分析了ETL思想在彩铃业务数据分析领域中的应用,设计和实现了彩铃经营分析系统。该系统利用数据采集和处理的思想进行架构设计,支持可扩展的营销数据分析和呈现。试运行表明,该系统可以对运营数据资源进行充分挖掘,提升电信客户价值。  相似文献   

4.
胡逢彬  沈炜 《信息技术》2006,30(4):19-21
分析产生数据质量问题的原因,并对数据质量问题进行了分类,建立数据质量评价的量化标准。提出通过模式集成解决模式层次上的数据质量问题,通过数据清洗解决实例层次上的数据质量问题,并概述了数据清洗算法,提出分四步进行数据ETL数据清洗。  相似文献   

5.
赵淼 《电子工程师》2006,32(8):44-47
根据目前信息化的发展现状和趋势,对信息系统中数据集成技术进行了综合分析.重点阐述了ETL(数据抽取、转换和装载)和数据清洗的工作过程,并对目前流行的几种主要商业ETL工具进行了评估和比较.这种评估比较能进一步指导信息系统的使用,同时也为信息系统的演化提供了理论支持.  相似文献   

6.
《光通信研究》2006,(2):28-28
近日,烽火网络公司获得老挝电信公司(ETL,Enterprise of Telecommunications LAO)数据骨干网建设合同订单,将为ETL公司提供核心路由器和三层交换机,用于其核心IP骨干网工程建设,这是烽火网络中高端网络设备在国际市场上获得的首个订单,也为该公司在老挝市场开拓其他数据产品奠定了基础。  相似文献   

7.
解决数字化校园建设中的多源异构数据集成问题.利用开源ETL工具KETⅡE,对学生考试信息与上网信息的抽取、转换和加载.ETL模型自动生成了以上网行为事实表为中心表,以学生信息、上网信息、时间3个维度表的数据仓库.利用KETTLE能够快速实现高校多源异构数据集成,形成高质量的分析型数据,为决策支持服务.  相似文献   

8.
刘晓博 《电子世界》2012,(24):123-124
本文针对中核集团核电厂生产管理信息系统(N1-EAM)数据迁移问题,归纳总结了企业级数据迁移过程中不可回避的问题,通过几种数据迁移技术的分析比较,最终采取ETL技术,经过基于ETL原理的程序设计和编程校验,实现了N1-EAM系统数据的有效迁移,从而获得了满足该系统需求较为可行的数据迁移解决方案。  相似文献   

9.
《信息技术》2019,(12):165-168
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。  相似文献   

10.
在研究ETL(Extract,Transform,Load)流程的基础上,结合电信运营数据的特点,分析了ETL思想在彩铃业务数据分析领域中的应用,设计和实现了彩铃经营分析系统。该系统利用数据采集和处理的思想进行架构设计,支持可扩展的营销数据分析和呈现。试运行表明,该系统可以对运营数据资源进行充分挖掘,提升电信客户价值。  相似文献   

11.
《信息技术》2017,(10):133-136
信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运作和判断,要求数据可靠准确是研究的热点,文中提出了一种ETL与数据清洗结合的分布式数据集成工具,将数据清理的技术引入到ETL中,制定数据清洗规则,并基于统计的方法,聚类方法,关联规则的方法等提出数据清洗的算法,并进行比较,提出清洗数据信息的框架,从而提高数据的质量,进行数据清洗评估,认为方法可行有效,具有实际应用意义。  相似文献   

12.
张智渊 《电子技术》2023,(3):396-397
阐述智能电网中的大数据技术特点,智能电网及大数据和云计算,面向智能电网应用的电力大数据关键技术应用,包括智能电网电力大数据平台架构、ETL关键技术、数据分析与处理技术。  相似文献   

13.
OWB在防汛指挥系统数据汇聚中的应用   总被引:1,自引:0,他引:1  
OWB是Oracle的一个用于构建数据仓库的集成工具,它提供了建立ETL过程模型的图形环境,利用ETL技术可以将分布在异地的数据资源汇聚到统一管理的综合数据库中。文中针对水利领域数据分布特点,以数据仓库原理设计防汛综合数据库,利用OWB技术在防汛综合数据库与分布在各数据中心的数据源之间建立数据汇聚系统,屏蔽数据分布、系统异型、主题复杂的水利专题数据库环境,实时地按信息主题抽取、交换、汇聚水利数据资源,更好地满足了防汛指挥系统对防汛信息的实时性需求。  相似文献   

14.
针对银联数据的特点,设计实现了银联数据仓库ETL系统。该系统采用模块化的设计方式,增强了系统的可控性和灵活性。元数据模块使ETL系统能够灵活地适应银联业务逻辑的频繁变化;调度模块采用线程池技术.改进了以往多线程技术,提高了数据抽取的效率和系统资源的使用率;日志、监控信息及通知模块解决了系统出错快速恢复的问题。测试表明该ETL系统很好地满足了银联的需求。  相似文献   

15.
数据从来源端经过抽取、转换、加载至目的端的过程称为ETL.在三网融合和5G移动业务广泛开展,运营支撑系统数据库数据量日益增大及数据个性化需求增多的背景下,海量数据自动化处理及可视化实现成为迫切的需求.本文介绍了当下主流数据ETL的过程节点与技术方案,并经过多种方案的综合对比,最终选取Python+Kettle+Stre...  相似文献   

16.
本文提出了一种基于遗传算法的ETL任务调度改进算法。由于ETL调度子任务之间具有先后顺序的限制,传统遗传算法不能很好的适应。本文通过对传统遗传算法的各个步骤进行相应处理,得到一种改进的ETL任务调度算法;实际应用结果表明调度算法显著提高了处理ETL子任务的效率。  相似文献   

17.
伴随着智能网联汽车的飞速发展,车机数据量愈加庞大,如何对这些数据进行清洗,成为了许多汽车厂商需要直接面对的问题。Kettle作为一款开源的ETL工具,通过其丰富的功能模块,实现了一个实例的车机大数据清洗方案,本文通过Kettle的核心理念和关键组件,介绍了方案的实现过程,为数据质量提升提供参考。  相似文献   

18.
分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了处理时间开销.实际应用证明,优化后的ETL流程方案有效地减少了传统ETL工作流的时间花费,执行效率好,具有良好的实践应用价值.  相似文献   

19.
基于多Agent的实时ETL系统模型研究   总被引:2,自引:0,他引:2  
针对传统ETL系统难以满足企业对实时数据的需求,提出了一种基于多Agent技术的实时ETL系统模型,通过多个Agent相互协同工作实现实时ETL,利用实时分区和静态分区来加载和更新数据。实验表明,该模型能够实现实时ETL功能,并且具有较好的主动性和灵活性。  相似文献   

20.
吴斌  刘心光 《电信科学》2013,29(12):1-8
介绍了并行ETL 的相关工作和常见的处理多MapReduce 作业流程的方法;提出一种改进的链式MapReduce 框架,并将此框架应用于一个并行ETL 工具,同时提出一些针对ETL 处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号