共查询到15条相似文献,搜索用时 109 毫秒
1.
2.
3.
随着企业信息化的不断发展,石油单位将数据整合纳入到重点规划中。面对分散在各处的异构数据源进行数据整合并非易事,首先仅靠手工进行脏数据的清洗不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。ETL系统为数据整合提供了令人满意的解决方案。它可以完成数据抽取、清洗、转换、装载等任务,满足了用户对异构数据源进行整合的需求,也实现了数据的后期更新。笔者对钻井数据仓库ETL系统的设计提出了一种基于元数据的ETL体系结构,并重点设计了数据准备区、ETL管理模块、任务管理模块和元数据管理模块。该工具已在中海油田化学技术专家支持系统中得到应用。 相似文献
4.
随着企业信息化的不断发展,石油单位将数据整合纳入到重点规划中。面对分散在各处的异构数据源进行数据整合并非易事,首先仅靠手工进行脏数据的清洗不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。ETL系统为数据整合提供了令人满意的解决方案。它可以完成数据抽取、清洗、转换、装载等任务,满足了用户对异构数据源进行整合的需求,也实现了数据的后期更新。笔者对钻井数据仓库ETL系统的设计提出了一种基于元数据的ETL体系结构,并重点设计了数据准备区、ETL管理模块、任务管理模块和元数据管理模块。该工具已在中海油田化学技术专家支持系统中得到应用。 相似文献
5.
陈硕 《数字社区&智能家居》2009,(26)
当今,越来越多的企业正在构建ODS运营数据仓储系统来满足其战略决策需要。利用ETL工具可以对异构数据源中的业务数据抽取和转换,并将其装载到ODS中,为基于企业统一数据之上的决策分析应用提供高质量的数据。因此,搭建一个高效的ETL平台,在整个ODS系统中具有非常重要的意义。 相似文献
6.
基于数据仓库的通用ETL工具的设计与实现 总被引:14,自引:1,他引:14
讨论了一种基于异构数据源通用ETL工具的设计方法和实现过程,它能实现异种数据源的数据转换,并将数据装载到中心数据库中,具有一定易用性、灵活性和扩展性。该工具根据索引库来获得目标数据库与源数据库的映射关系。 相似文献
7.
8.
文中主要针对企业信息资源共享的要求,提出了基于XML的ETL方案,有效地解决了企业数据级的信息集成问题。该方案通过对异构数据源的元数据获取,进行异构数据源的分析,并通过数据的抽取、转换和加载,最终实现了数据的集成。文中提出的ETL方案,主要采用了XML技术,充分地利用了XML语言的结构性强、自描述性好等特点。 相似文献
9.
10.
文中主要针对企业信息资源共享的要求,提出了基于XML的ETL方案,有效地解决了企业数据级的信息集成问题.该方案通过对异构数据源的元数据获取,进行异构数据源的分析,并通过数据的抽取、转换和加载,最终实现了数据的集成.文中提出的ETL方案,主要采用了XML技术,充分地利用了XML语言的结构性强、自描述性好等特点. 相似文献
11.
12.
增量ETL过程自动化产生方法的研究 总被引:11,自引:0,他引:11
ETL过程用于将数据从数据源装载到数据仓库中,它可以被划分为两种类型:全量ETL过程和增量ETL过程·全量ETL过程只能处理全量数据,但易于设计·而增量ETL过程设计起来比较复杂,但适用于处理增量数据·主要对增量ETL过程的自动化产生方法进行了研究,根据已有的全量ETL过程,可以自动产生增量ETL过程,从而降低设计增量ETL过程的代价·利用已有的物化视图增量维护的方法,给出了根据全量ETL过程自动产生增量ETL过程的方法·但是已有的研究集中在包含选择、投影、联接和聚合运算情况下物化视图的增量维护,未见对包括差运算情况下的讨论·作为研究工作的基础,还详细讨论了包含差运算情况下物化视图的增量维护问题· 相似文献
13.
Extract-transform-load (ETL) workflows model the population of enterprise data warehouses with information gathered from a large variety of heterogeneous data sources. ETL workflows are complex design structures that run under strict performance requirements and their optimization is crucial for satisfying business objectives. In this paper, we deal with the problem of scheduling the execution of ETL activities (a.k.a. transformations, tasks, operations), with the goal of minimizing ETL execution time and allocated memory. We investigate the effects of four scheduling policies on different flow structures and configurations and experimentally show that the use of different scheduling policies may improve ETL performance in terms of memory consumption and execution time. First, we examine a simple, fair scheduling policy. Then, we study the pros and cons of two other policies: the first opts for emptying the largest input queue of the flow and the second for activating the operation (a.k.a. activity) with the maximum tuple consumption rate. Finally, we examine a fourth policy that combines the advantages of the latter two in synergy with flow parallelization. 相似文献
14.
数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。 相似文献