首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
《信息技术》2017,(10):133-136
信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运作和判断,要求数据可靠准确是研究的热点,文中提出了一种ETL与数据清洗结合的分布式数据集成工具,将数据清理的技术引入到ETL中,制定数据清洗规则,并基于统计的方法,聚类方法,关联规则的方法等提出数据清洗的算法,并进行比较,提出清洗数据信息的框架,从而提高数据的质量,进行数据清洗评估,认为方法可行有效,具有实际应用意义。  相似文献   

2.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

3.
胡博 《电信交换》2008,(1):7-11
ETL是BI(Business Intelligence,商业智能)项目中的重要环节。本文阐述了ETL的相关概念,重点讨论了ETL的分组模块和设计思路,对ETL的两种实现方式进行了比较。  相似文献   

4.
针对如何有效地处理、分析和管理大数据的问题,研究提出一种基于大数据场景中的分布式ETL作业调度方案,将多源异构的数据统一抽取,进行清洗、转换、集成加载到数据仓库,改进后的ETL比传统的开源工具提升了性能和可靠性.  相似文献   

5.
针对频率评估系统中的ETL处理过程效率较低的问题,在分治算法和贪心算法思想的基础上,提出了一种优化算法——DC-Greedy算法.通过在评估系统中对小区数据进行处理后,基于主成分分析法,研究了单个小区综合性能的评估策略.ETL处理时间和小区综合性能评估值的仿真结果表明,对比一般情况下ETL的穷举处理过程,经过优化后ETL处理效率明显提高;对小区评估策略的评价结果表明该评估方法可以完整地反映小区的综合性能,评估结果图能较直观地呈现小区综合性能水平,达到了预期研究目标.  相似文献   

6.
《信息技术》2019,(12):165-168
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。  相似文献   

7.
针对传统数据抽取、转换及加载(ETL)工具集中式执行的不足,设计实现了一种基于Hadoop平台的分布式ETL系统。该系统采用分布式文件系统存储和映射-规约并行处理海量数据架构,实现了ETL作业的分布式执行,提高了ETL效率,为大数据环境下的基础数据加工提供了解决方案。  相似文献   

8.
解决数字化校园建设中的多源异构数据集成问题.利用开源ETL工具KETⅡE,对学生考试信息与上网信息的抽取、转换和加载.ETL模型自动生成了以上网行为事实表为中心表,以学生信息、上网信息、时间3个维度表的数据仓库.利用KETTLE能够快速实现高校多源异构数据集成,形成高质量的分析型数据,为决策支持服务.  相似文献   

9.
为提高军事信息系统数据质量评估能力,针对军事信息系统数据质量控制和管理的特点,分析了影响数据质量评估结论的主要因素,划分了数据质量缺陷等级,在此基础上,研究提出了一种基于层次递进的数据质量评估方法,为有效地控制军事信息系统数据质量提供了参考依据。  相似文献   

10.
刘晓博 《电子世界》2012,(24):123-124
本文针对中核集团核电厂生产管理信息系统(N1-EAM)数据迁移问题,归纳总结了企业级数据迁移过程中不可回避的问题,通过几种数据迁移技术的分析比较,最终采取ETL技术,经过基于ETL原理的程序设计和编程校验,实现了N1-EAM系统数据的有效迁移,从而获得了满足该系统需求较为可行的数据迁移解决方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号