首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 69 毫秒
1.
大数据不仅意味着大机遇,同样带来了大噪声。因此,任何具有价值的大数据策略都必须给出滤除噪音,同时对真正相关的数据进行有效且高效的处理和解决办法。该文分析了大数据背景下企业的数据策略和现有IT解决方案中存在的问题,提出通过优化ETL过程来增强早期数据整合的解决方案,以提高企业大数据策略的成本收益。  相似文献   

2.
大数据无疑将催生创新、改进生产力、提高服务满意度及扩大业务范围,为各行各业提供新的发展机遇、实现价值,给人们日常生活带来方方面面的改变。然而,若不能有效地滤除大数据噪声,企业的业务拓宽、服务改进将成为纸上谈兵。本文研究了大数据背景下企业的数据资源化现状,分析了数据集成对提高企业大数据资源转化的价值,最后讨论了数据集成中起决定性的ETL过程的影响及ETL工具的选取原则。  相似文献   

3.
数据ETL(Data Extraction,Transformation and Loading)主要用来实现异构多数据源的数据集成,是数据仓库、数据挖掘以及商业智能等技术的基石,具有数据抽取、数据转换和数据装载功能。本文综述了ETL发展的背景、目前广泛研究的领域,论述了ETL在异构数据源集成和脏数据的检测与解决两方面面临的挑战,指出ETL将呈现出通用化、高效化、智能化三大发展趋势。  相似文献   

4.
针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的"信息孤岛"的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。  相似文献   

5.
针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的“信息孤岛”的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。  相似文献   

6.
ETL实施的数据质量问题研究   总被引:1,自引:0,他引:1  
对数据仓库中数据质量的重要评价指标进行了介绍,对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析.对部分常见的数据质量问题给出了相应的解决方法。  相似文献   

7.
数据ETL研究综述   总被引:6,自引:2,他引:6  
数据抽取、转换和装载(Extraction, Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针对当前ETL研究中存在的一些问题和需要考虑的各种因素,从ETL各个阶段存在的主要问题出发,列举了各种研究方法及研究成果,并进行了分析。最后,总结并提出了E`I'I的未来研究方向和今后工作的建议。  相似文献   

8.
本文探讨了银行业务数据ETL的需求,对源数据、处理步骤、来用工具等进行了分析.  相似文献   

9.
基于数据仓库的ETL过程优化   总被引:2,自引:0,他引:2  
提出一种优化ETL整体过程的方法,包括:其一,针对现有ETL过程的局限性提出一个优化其整体流程的框架EICLF(Extracting/Integrating/Cleaning/Loading/Feedback)流程;其二,对现有相似重复记录的识别算法进行改进;其三,根据清理后得到的干净数据对源数据进行反馈处理。  相似文献   

10.
ETL实施的数据质量问题研究   总被引:1,自引:0,他引:1  
对数据仓库中数据质量的重要评价指标进行了介绍,对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析,对部分常见的数据质量问题给出了相应的解决方法。  相似文献   

11.
针对军械装备保障数据仓库中复杂的ETL过程,提出采用改进的粒子群算法进行ETL任务调度的优化策略;通过改进惯性向量,使其具备动态调整能力,形成更具寻优特性的动态w粒子群算法(DWPSO);在对数据仓库ETL调度过程进行数学化描述的基础上,将改进算法应用在以最小执行时间为目标函数任务调度中,并通过仿真实验证明了该算法的有效性.  相似文献   

12.
ETL (Extract-Transform-Load) usually includes three phases: extraction, transformation, and loading. In building data warehouse, it plays the role of data injection and is the most time-consuming activ...  相似文献   

13.
分布式ETL负载均衡策略研究   总被引:1,自引:0,他引:1  
在分析分布式ETL中负载均衡重要性的基础上,针对传统ETL应用于分布式数据仓库中效率低的缺陷,提出一种根据ETL节点所抽取的数据类型不同对分布式ETL节点抽取的数据进行分割的策略,以及一种新的负载均衡模型—链网模型和Routers相结合的R-CN模型。在此基础上提出一种基于ETL数据分片和R-CN模型相结合的分布式ETL节点负载调度和均衡策略。此策略使ETL节点的数据处理能力有了很大的提高,有效地提高了分布式ETL的效率。  相似文献   

14.
基于分布式数据仓库技术的ETL系统的研究与应用   总被引:6,自引:0,他引:6  
ETL系统是构建和维护数据仓库的基本构件,由于要处理海量数据和访问各种异构数据源,如何同时具有高效的数据处理能力和通用的数据源访问能力是值得研究的问题。本文针对某银行数据仓库项目的实际需求,提出了基于分布式数据仓库的ETL系统,并使用了XML技术实现异构数据源的通用接口访问方式。系统运行表明该解决方案具有好的使用效果。  相似文献   

15.
针对气象网站等应用系统向地方政务云迁移过程中缺乏基础数据的现状,从功能性,开发成本,灵活性方面考虑选用ETL工具,基于Kettle软件对气象数据ETL流程进行建模,使用Quartz开发作业调度系统实现ETL流程的自动化运行,在政务云搭建SQL Server数据库集群,构建了政务云气象数据仓库.该数据仓库实现了异构环境气象数据在政务云的实时同步和存储,为气象应用系统在政务云的全面部署提供了数据支持,也为气象部门参与电子政务数据交换和共享打下基础.  相似文献   

16.
通过对基于数据仓库的ETL过程进行的研究,提出了一种通用ETL过程的解决方案,为企业管理者的决策过程提供了有力支持,同时给出了一套完整的系统体系架构。  相似文献   

17.
一种可靠的数据仓库中ETL策略与架构设计   总被引:18,自引:0,他引:18  
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号