首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

2.
面向数据质量的ETL框架的设计与实现   总被引:1,自引:0,他引:1  
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构.根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等.该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理.基于该设计思想开发一个ETL工具-DQETL.DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理.最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤.  相似文献   

3.
基于XML的数据转换系统SuperETL   总被引:1,自引:1,他引:0  
针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(Cleaning)、转换(Transformation)、装载(Loading)及ETL任务。  相似文献   

4.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程。文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证。并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构。  相似文献   

5.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程.文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证.并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构.  相似文献   

6.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率.  相似文献   

7.
针对日前数据清洗框架中普遍存在的交互性和可扩展性差的问题,本文从数据清洗的定义出发,分析了数据清洗的原理和流程,并在此基础上提出了一种基于规则的交互式数据清洗框架.该框架具有较好的交互性、可扩展性和通用性.  相似文献   

8.
交通流数据清洗规则研究   总被引:2,自引:0,他引:2       下载免费PDF全文
王晓原  张敬磊  吴芳 《计算机工程》2011,37(20):191-193
交通检测器获得的数据存在无效、冗余、错误、时间点漂移及丢失等质量问题。为此,在分析影响数据质量问题原因的基础上,给出交通流数据清洗的概念,研究“脏数据”的清洗规则与清洗步骤,并对环形线圈检测器检测到的数据进行验证。结果表明,该清洗规则对错误、丢失、冗余等“脏数据”的识别率均在90%以上。  相似文献   

9.
物联网(IoT)数据具有数据量大和实时性好的特点。通过复杂事件处理技术处理物联网数据时需要设置复杂的规则,但规则往往会随着业务的变化而变化。Drools规则引擎可以通过分离的配置文件设置规则,在不修改设备数据或管理平台代码的情况下,筛选到匹配规则的数据或事物。为解决DRL规则文件架构和决策表文件架构筛选数据产生的重复匹配的冗余问题,设计了一种修正数据库的数据查询方法。在不同数据量、不同规则数的查询环境下,对DRL规则文件架构、决策表文件架构和修正数据库架构进行了数据查询性能分析。实验结果表明:修正数据库架构在大数据量查询时时间损耗更少,可有效减少冗余。  相似文献   

10.
朱会娟  蒋同海  周喜  程力  赵凡  马博 《计算机应用》2017,37(4):1014-1020
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。  相似文献   

11.
数据仓库环境下以用户为中心的数据清洗过程模型   总被引:8,自引:1,他引:7  
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。  相似文献   

12.
该文提出了基于聚类的比例规则(CRR),该规则保留了比例规则(RR)的优良特性,同时适用于多峰分布的数据集。实验证明,基于聚类的比例规则的预测效果优于比例规则的预测效果。  相似文献   

13.
基于时序数据的延迟关联规则的挖掘   总被引:5,自引:0,他引:5  
时序数据是一种常见的数据类型,也是数据挖掘的重要研究内容。采用关联规则挖掘时序数据是较新的研究领域。明确提出挖掘延迟关联规则的模型,根据延迟规则的定义提出两种挖掘方法,并针对两种算法进行了相关的对比分析。  相似文献   

14.
文章针对统计数据审核要求,提出了一种基于规则的统计数据审核解决方法。介绍了统计审核规则的分类和表示方法,并给出了构造审核规则解释器的方案。  相似文献   

15.
基于关联规则的数据挖掘技术综述   总被引:4,自引:0,他引:4  
阐述在数据挖掘领域中的四种常用的数据挖掘技术方法,以数据挖掘技术中的关联规则挖掘为基础,阐述关联规则挖掘的经典算法Apriori算法的基本思想。通过关联规则挖掘算法实验给出该算法的具体使用方法,总结该算法存在的不足。  相似文献   

16.
本文根据关联规则和分类规则的概念与表示形式,指出在关联规则挖掘过程中如果指定挖掘与一个确定的项相关联,那么就是分类规则挖掘了,论述了分类规则是特殊情况下的关联规则,并指出在这种特殊情况下,关联规则所具有的特征;然后根据这一论述,提出了一种在关联规则挖掘算法中利用限制条件概率分布来发现分类规则的算法。  相似文献   

17.
基于关联规则的教学质量评价数据挖掘   总被引:4,自引:0,他引:4  
课堂教学质量评价是教学质量评估的重要内容,是提高教学质量的重要途径和手段.讨论利用数据挖掘方法中的Apriori算法对教学质量评价数据进行关联规则挖掘,挖掘教学质量与考核对象,考核指标之间的内在关系,为教学管理提供决策支持.  相似文献   

18.
基于聚类分析技术的数据清洗研究   总被引:3,自引:0,他引:3       下载免费PDF全文
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。  相似文献   

19.
以高校教学评价数据为基础,采用数据挖掘中的关联规则,寻找教学评价数据背后隐含的有价值的信息。从教学评价表中挖掘出教师特征因素(学历、职称、教龄)与教学评价质量等级的关联,从而为教学管理部门和授课教师提供决策参考。  相似文献   

20.
针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析关联规则数据挖掘结构的基础上,给出该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号