首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 52 毫秒
1.
赵群 《福建电脑》2006,(4):51-52
脏数据是整个数据仓库的隐患,因此数据清理对维护数据仓库和大型数据库极有价值。本课题介绍和研究数据清理的方法和技术.重点讨论消除中文重复数据的分析方法.并且对这些方法进行验证.分析和实现。  相似文献   

2.
重复数据的存在对数据管理和使用带来了极大的困扰,图数据能够很好地反应数据与数据之间的联系,是数据发展的趋势。对于重复数据对的检测已经有大量研究,但鲜有研究关注于对检测后数据对的合并清理。由于图数据中数据关联的复杂性,如果随意去掉其中一个数据将会带来数据间关系的混乱,所以,对于图数据中数据的去重问题更为重要。针对以上问题,为了保证图数据之间的关联关系和图的稳定性,研究在检测重复数据后,提出一种适合图数据中重复数据对的整合清理策略。该策略将图收缩性引入清理方法,针对不同的情况采用不同的处理方法,以保证清理后图的关联性和稳定性。  相似文献   

3.
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用。本文在讨论常用清理方法的基础上,着重阐述了基于相似度分析的数据清理方法。  相似文献   

4.
数据清理中不完整数据的清理方法   总被引:7,自引:0,他引:7  
针对数据源中出现的不完整数据,提出一种有效的清理方法。  相似文献   

5.
数据清理研究   总被引:2,自引:0,他引:2  
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。  相似文献   

6.
数据清理方法   总被引:4,自引:0,他引:4  
佘春红 《计算机应用》2002,22(12):128-130
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。  相似文献   

7.
数据清理中几种解决数据冲突的方法   总被引:5,自引:0,他引:5  
建立数据挖掘模型的基石是数据仓库,数据仓库的质量直接影响到数据挖掘模型的建立与执行效率,并有可能影响到数据挖掘模型的最终结果的准确度。数据清理就是发现数据中的错误和不一致并加以消除,以提高数据的质量,使得数据挖掘模型建立的过程更加快捷和简便,挖掘出来的模式和规则也就更加有效和适用。  相似文献   

8.
魏定国 《现代计算机》2002,(12):6-10,15
当今数据清理方案需要反复进行数据质量分析以查找错误,为修复它们而进行的转换需要运行很长的时间。用户需要忍受长时间的等待,而且经常需要撰写复杂的转换脚本。我们所探讨的交互式数据清理系统,它能紧密地将转换和偏差检测集成在一起,只要发现偏差,用户就可以交互式地使用简单的图表操作、实例描述逐渐建立一个转换,无需书写复杂的程序或忍受很长的延时。  相似文献   

9.
RFID网络的数据清理技术   总被引:1,自引:0,他引:1       下载免费PDF全文
结合RFID网络数据质量和可靠性研究的最新进展,分类和评述了现有的数据清理技术,分析了平滑和判决方法、流水线方法、基于统计的估计方法、完整性约束的方法等。研究表明,针对不同的应用要求,需要多种数据清理技术的组合才可确保RFID阅读可靠性。  相似文献   

10.
孙进 《福建电脑》2010,26(12):69-70
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程.  相似文献   

11.
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。  相似文献   

12.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性.  相似文献   

13.
数据清理及其在数据仓库中的应用   总被引:9,自引:0,他引:9  
数据仓库是为决策服务的,这里的数据是从各种并构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中数据的错误并加以清除或修改,发现和纠正数据源之间数据的不一致性。分析了数据清理概念和方法以及在数据仓库中的应用。  相似文献   

14.
基于遗传神经网络的数据清洗方法   总被引:5,自引:0,他引:5  
现实世界中的数据常常是有噪声、不完全和不一致的,数据清洗能够帮助改善数据的质量,进而帮助提高数据挖掘的有效性和准确性。该文提出了一种基于遗传神经网络的数据清洗模型,它充分利用了神经网络的非线性映射和遗传算法的全局优化特性。实验证明,这种方法的可行性、有效性及处理精度都比较高。  相似文献   

15.
一个可扩展的数据清洗系统   总被引:3,自引:1,他引:3  
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,要把数据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用,该文提出并实现了一个可扩展的数据清洗框架,它以术语模型、过程描述文件、共享库等概念和技术实现了模块的高度独立性和系统的可扩展性。并提供了一个可视化的流程定义环境。  相似文献   

16.
数据质量研究综述   总被引:14,自引:1,他引:13  
数据质量管理是信息系统建设的首要问题.本文首先回顾了数据质量的定义和质量提高策略的分类,然后对数据质量研究涉及的两个主要方面,即数据质量评估和数据质量提高技术的各种方法进行了比较和分析,并对有代表性的数据质量提高工具进行了介绍.最后提出了一个评估驱动的数据质量提高框架,并对数据质量研究方向进行了展望.  相似文献   

17.
关系数据库中近似重复记录的识别   总被引:5,自引:0,他引:5  
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。  相似文献   

18.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号