期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

数据ETL工具通用框架设计 总被引：18，自引：0，他引：18

周宏广周继承彭银桥龙思锐《计算机应用》2003,23(12):96-98

异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架，使用通用数据访问接口来屏蔽各种数据源之间的差异，并以数据清洗为主要目的，为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。相似文献

2.

社保数据集成系统ETL研究与开发

林海《数字社区&智能家居》2012,(1X):506-507

该文主要通过研究社保系统数据集成中使用的ETL方法,并结合崂山区社会保险管理系统的现状,提出了采用数据仓库法实现崂山区社保系统的数据集成。重点介绍了社保系统数据集成中ETL的开发。经过验证能够建立统一的、完整的、高质量的社保系统数据仓库。相似文献

3.

高校数据集成系统的ETL设计与实现

王晓虹刘莹张艳凤《计算机技术与发展》2011,21(7)

高校数字化校园建设是高校教育信息化发展的一项重要任务.由于高校普遍采用不同的数据库系统来管理学校的一切事务,致使信息存在大量的冗余、不一致,乃至"信息孤岛"的现象,从而严重制约了高校的信息化的建设.基于ETL的数据集成技术能够很好地解决这个难题.以高校集成数字校园平台建设为背景,提出了高校数据集成系统中基于ETL平台的建设方案.系统将ETL技术与传统的数据集成技术相结合,采用适配器技术和中间件技术,处理大批量的历史数据、实时处理小批量的变化的数据,全方位地满足用户对所有数据处理的需求,解决了异构数据集成和共享问题. 相似文献

4.

基于ETL的校园数据集成技术研究

李军孙蕾王泽芳《数字社区&智能家居》2013,(10):6429-6430

针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的“信息孤岛”的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。相似文献

5.

基于ETL的校园数据集成技术研究

李军孙蕾王泽芳《数字社区&智能家居》2013,(28):6429-6430

针对目前校园由于缺乏统一的数据规划导致各应用系统数据标准不一致,难以共享使用,出现了一个个的"信息孤岛"的现象,ETL通过建立底层数据交换平台来联系各个异构系统、应用、数据源,实现无缝共享和交换数据的需要。相似文献

6.

数据ETL研究综述 总被引：6，自引：2，他引：6

徐俊刚裴莹《计算机科学》2011,38(4):15-20

数据抽取、转换和装载(Extraction, Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针对当前ETL研究中存在的一些问题和需要考虑的各种因素,从ETL各个阶段存在的主要问题出发,列举了各种研究方法及研究成果,并进行了分析。最后,总结并提出了E`I'I的未来研究方向和今后工作的建议。相似文献

7.

ETL实施的数据质量问题研究 总被引：1，自引：0，他引：1

李志辉《数字社区&智能家居》2006,(9):25-25,121

对数据仓库中数据质量的重要评价指标进行了介绍，对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析．对部分常见的数据质量问题给出了相应的解决方法。相似文献

8.

数字化校园建设中ETL技术实现数据集成

何雪利《数字社区&智能家居》2010,(8)

学校各部门的业务系统在发挥重要作用的同时,由于各个系统之间拥有各自的数据存储与访问方式,彼此独立,形成了一个个信息孤岛。该文结合我院数字化校园建设过程中的具体实践,通过对数据集成技术的研究,选择合理的数据集成方案,解决了各部门业务系统之间的数据互通问题,保障了数据的权威性、唯一性、完整性和准确性,创造出一个良好的数据环境。相似文献

9.

银行业务数据ETL的需求分析

杜素芳《计算机光盘软件与应用》2011,(4)

本文探讨了银行业务数据ETL的需求,对源数据、处理步骤、来用工具等进行了分析. 相似文献

10.

ETL实施的数据质量问题研究 总被引：1，自引：0，他引：1

李志辉《数字社区&智能家居》2006,(26)

对数据仓库中数据质量的重要评价指标进行了介绍,对ETL实施时在数据源端和ETL过程中可能面临的数据质量问题进行了分析,对部分常见的数据质量问题给出了相应的解决方法。相似文献

11.

Data generator for evaluating ETL process quality

《Information Systems》2017

Obtaining the right set of data for evaluating the fulfillment of different quality factors in the extract-transform-load (ETL) process design is rather challenging. First, the real data might be out of reach due to different privacy constraints, while manually providing a synthetic set of data is known as a labor-intensive task that needs to take various combinations of process parameters into account. More importantly, having a single dataset usually does not represent the evolution of data throughout the complete process lifespan, hence missing the plethora of possible test cases. To facilitate such demanding task, in this paper we propose an automatic data generator (i.e., Bijoux). Starting from a given ETL process model, Bijoux extracts the semantics of data transformations, analyzes the constraints they imply over input data, and automatically generates testing datasets. Bijoux is highly modular and configurable to enable end-users to generate datasets for a variety of interesting test scenarios (e.g., evaluating specific parts of an input ETL process design, with different input dataset sizes, different distributions of data, and different operation selectivities). We have developed a running prototype that implements the functionality of our data generation framework and here we report our experimental findings showing the effectiveness and scalability of our approach. 相似文献

12.

基于电信行业的ETL系统的设计与实现

刘强翁惠玉《计算机工程》2004,30(Z1):30-31

基于电信行业的数据仓库,对其数据抽取、数据转换和数据装载的实现方法进行了探讨,这些方法对其他行业数据仓库的构建具有借鉴作用。相似文献

13.

数据仓库中ETL技术的研究 总被引：43，自引：0，他引：43

张宁贾自艳史忠植《计算机工程与应用》2002,38(24):213-216

作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。相似文献

14.

基于数据仓库的通用ETL工具的设计与实现 总被引：14，自引：1，他引：14

陈弦陈松乔《计算机应用研究》2004,21(8):214-216

讨论了一种基于异构数据源通用ETL工具的设计方法和实现过程,它能实现异种数据源的数据转换,并将数据装载到中心数据库中,具有一定易用性、灵活性和扩展性。该工具根据索引库来获得目标数据库与源数据库的映射关系。相似文献

15.

位置编码在数据仓库ETL中的应用 总被引：6，自引：0，他引：6

下载免费PDF全文

张永迟忠先《计算机工程》2007,33(1):50-52

为了保证数据仓库中数据的质量，在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节，数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中，提出了一种相似重复记录的检测算法，并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。相似文献

16.

地理编码在空间数据仓库ETL中的应用 总被引：5，自引：0，他引：5

陈细谦迟忠先昃宗亮苏立强《小型微型计算机系统》2005,26(4):628-630

空间数据仓库可以有效地管理和利用空间信息以便支持空间分析和决策支持．在空间数据的抽取、转换和加载中如何有效地把非空间信息与空间信息融合起来，是空间数据仓库ETL实现的难点．将地理编码技术引入到空间数据仓库ETL中，给出了融合地理编码模块的ETL体系机构．同时为了提高地址匹配能力，将动态规划算法应用到地理编码地址匹配中，并对算法做了改进．给出了完整的应用示例。相似文献

17.

教学管理数据仓库ETL过程的设计与实现

黄光明《数字社区&智能家居》2007,(10):37-38

本文设计了教学管理数据仓库ETL架构,提出了数据仓库的两段迁移法,利用临时数据库来减轻业务数据库压力,有效克服了传统ETL架构的缺陷。本文还详细说明如何利用SQL Server DTS实现这两阶段ETL过程。相似文献

18.

数据ETL软件中元数据模型设计与管理

管丽娟《数字社区&智能家居》2007,2(8):469

元数据(Meta Data)是用来描述应用中数据结构的数据或文档,即关于数据的数据,处在数据ETL系统的核心位置。分析了元数据在ETL中的作用,设计了元数据模型,提出了元数据管理系统的设计原则和步骤,使其具有广泛的适应性、很好的扩展性和可重用性。相似文献

19.

面向教育评价的数据仓库系统的开发与ETL研究

杨彬彬郑晓微《微计算机应用》2007,28(8):850-853

在阐述数据仓库技术的概念、原理、体系结构的基础上,具体描述了面向教育评价应用的数据仓库系统的需求分析、概念模型设计和逻辑模型设计,重点研究了运用Microsoft数据转换工具DTS设计数据迁移包,完成数据由业务数据库到教育评价数据仓库的抽取、转换、清洗和装载的过程。相似文献

20.

Scheduling strategies for efficient ETL execution

Anastasios Karagiannis Panos Vassiliadis Alkis Simitsis 《Information Systems》2013

Extract-transform-load (ETL) workflows model the population of enterprise data warehouses with information gathered from a large variety of heterogeneous data sources. ETL workflows are complex design structures that run under strict performance requirements and their optimization is crucial for satisfying business objectives. In this paper, we deal with the problem of scheduling the execution of ETL activities (a.k.a. transformations, tasks, operations), with the goal of minimizing ETL execution time and allocated memory. We investigate the effects of four scheduling policies on different flow structures and configurations and experimentally show that the use of different scheduling policies may improve ETL performance in terms of memory consumption and execution time. First, we examine a simple, fair scheduling policy. Then, we study the pros and cons of two other policies: the first opts for emptying the largest input queue of the flow and the second for activating the operation (a.k.a. activity) with the maximum tuple consumption rate. Finally, we examine a fourth policy that combines the advantages of the latter two in synergy with flow parallelization. 相似文献