首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
根据烟草商业企业数据中心项目建设的目标,结合湖南烟草信息化系统现状,对数据中心项目中数据集成部分的ETL过程进行详细分析和设计,解决了烟草数据中心项目中ETL过程的瓶颈问题.  相似文献   

2.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

3.
基于ETL和JMS的数据同步的设计与实现   总被引:1,自引:0,他引:1  
黄瑛  邓东华  廖德利 《信息技术》2009,33(12):49-51
分析了发电集团级数据的同步需求,提出采用ETL技术进行数据抽取和转换,并将数据提供给消息发送者(JMS服务),采用JMS技术进行数据传输和消息发送。通过分析实例描述了系统的设计思路和实现方法,并给出了关键技术的主要代码,成功实现了异构数据库的数据同步。  相似文献   

4.
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、96.5%,能够满足工程应用的要求。  相似文献   

5.
数据ETL过程中的实体识别方法   总被引:3,自引:0,他引:3  
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。  相似文献   

6.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

7.
针对在数据仓库的建设中业界端对端的数据迁移工具无法能满足数据库高可扩展性需求,基于数据ETL中间件技术和数据抽取CDC技术分析选型,设计实现一种基于插件化的异构数据ETL中间件,重点介绍其包括业务解析层与数据处理引擎层的总体架构,从而实现数据增量迁移需求,对工业数据仓库建设具有借鉴意义。  相似文献   

8.
数据ETL过程中的数据质量控制   总被引:4,自引:0,他引:4  
胡逢彬  沈炜 《信息技术》2006,30(4):19-21
分析产生数据质量问题的原因,并对数据质量问题进行了分类,建立数据质量评价的量化标准。提出通过模式集成解决模式层次上的数据质量问题,通过数据清洗解决实例层次上的数据质量问题,并概述了数据清洗算法,提出分四步进行数据ETL数据清洗。  相似文献   

9.
针对如何有效地处理、分析和管理大数据的问题,研究提出一种基于大数据场景中的分布式ETL作业调度方案,将多源异构的数据统一抽取,进行清洗、转换、集成加载到数据仓库,改进后的ETL比传统的开源工具提升了性能和可靠性.  相似文献   

10.
文章针对ETL技术下的装备大数据治理应用进行研究,获取相关的数据信息,主要目的就是帮助军用和民用装备领域能够更好地处理数据融合方面的问题。基于此,文章提出一套较为详细的治理方案,涵盖清洗服务、数据抽取和加载等方面的内容,同时在现有技术基础上提出标准统一和增量抽取等应用技术,这些都将为数据高效融合提供重要的途径。  相似文献   

11.
信息化是当今世界的重要发展趋势,且应用于多个领域。高校是我国培养人才的重要媒介,提升高校的信息化建设水平,可以有效加强高校的人才培养质量。文章分析了ETL数据治理在高校信息化建设中的运用,找出了ETL数据处理存在的不足,并分析了出现的问题,找出最佳解决办法,总结了ETL数据治理在高校信息化建设中的运用方法。  相似文献   

12.
《信息技术》2019,(12):165-168
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。  相似文献   

13.
崔佳 《移动信息》2023,45(1):117-119
在大数据时代,企业对业务数据价值挖掘和展现的需求更加明显,这进一步推动了商业智能或商务智能(Business Intelligence, BI)的发展。经过多年的发展,传统的商业智能已经难以满足要求,自助式商业智能成为了未来的发展趋势。文中主要针对大数据时代的自助式商业智能进行了探讨。  相似文献   

14.
随着大数据时代的来临,越来越多的企业认识到数据作为其核心资产所蕴含的价值。数据仓库/商业智能(DW/BI)系统作为数据服务平台,在发挥数据价值上起到了至关重要的作用。国内三大运营商已经开始或者即将开始建设企业级集中化DW/BI系统。据此从数据仓库技术选型、数据标准化实施策略以及提升自主分析能力3个方面对DW/BI系统的发展提出了建议。  相似文献   

15.
数据从来源端经过抽取、转换、加载至目的端的过程称为ETL。在三网融合和5G移动业务广泛开展,运营支撑系统数据库数据量日益增大及数据个性化需求增多的背景下,海量数据自动化处理及可视化实现成为迫切的需求。本文介绍了当下主流数据ETL的过程节点与技术方案,并经过多种方案的综合对比,最终选取Python+Kettle+Streamlit模块技术方案的开发应用。该方案解决了数据ETL依赖人工及时效性不高的问题,减少了数据开发人员重复编写大量SQL及数据脚本工作量,节省了大量运营维护时间,实现数据结果集直观展示。  相似文献   

16.
BI走出困境     
据Meta Group统计,企业数据仓库和商业智能市场已达到40亿美元.并有望在2008年底增长至100亿美元。想必BI厂商一定会因此而深受鼓舞,但市场就是这样.越是块大蛋糕,越是不容易吃到。  相似文献   

17.
随着大数据时代的到来,数据分析对于公司甚至是一个行业的发展逐步展现出其优越性和重要性。使用开源Kettle工具提供高效、支持异构的数据提取方案,通过新型数据建模完成不仅仅是数据查询,更重要的是大数据分析,能够为公司未来的发展决策提供重要依据。  相似文献   

18.
分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了处理时间开销.实际应用证明,优化后的ETL流程方案有效地减少了传统ETL工作流的时间花费,执行效率好,具有良好的实践应用价值.  相似文献   

19.
在研究ETL(Extract,Transform,Load)流程的基础上,结合电信运营数据的特点,分析了ETL思想在彩铃业务数据分析领域中的应用,设计和实现了彩铃经营分析系统。该系统利用数据采集和处理的思想进行架构设计,支持可扩展的营销数据分析和呈现。试运行表明,该系统可以对运营数据资源进行充分挖掘,提升电信客户价值。  相似文献   

20.
在研究ETL(Extract,Transform,Load)流程的基础上,结合电信运营数据的特点,分析了ETL思想在彩铃业务数据分析领域中的应用,设计和实现了彩铃经营分析系统。该系统利用数据采集和处理的思想进行架构设计,支持可扩展的营销数据分析和呈现。试运行表明,该系统可以对运营数据资源进行充分挖掘,提升电信客户价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号