首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
半结构化数据是网络中一种重要的数据形式,也是进行数据挖掘的重要基础.因此要对 Internet上巨量的数据进行数据挖掘,半结构化数据及模型是前提.本文介绍了半结构化数据的相关概念及其数据模型.  相似文献   

2.
基于业务规则的错误数据清理方法   总被引:3,自引:1,他引:3  
针对数据源中出现的错误数据,分析了业务规则在错误数据清理中的重要作用,提出了一种基于业务规则的错误数据检测方法,并研究了如何采用业务规则来检测这些错误数据。最后,以一个实例介绍了该方法的应用。  相似文献   

3.
数据清理中几种解决数据冲突的方法   总被引:5,自引:0,他引:5  
建立数据挖掘模型的基石是数据仓库,数据仓库的质量直接影响到数据挖掘模型的建立与执行效率,并有可能影响到数据挖掘模型的最终结果的准确度。数据清理就是发现数据中的错误和不一致并加以消除,以提高数据的质量,使得数据挖掘模型建立的过程更加快捷和简便,挖掘出来的模式和规则也就更加有效和适用。  相似文献   

4.
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用。本文在讨论常用清理方法的基础上,着重阐述了基于相似度分析的数据清理方法。  相似文献   

5.
数据清理研究   总被引:2,自引:0,他引:2  
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。  相似文献   

6.
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。  相似文献   

7.
数据挖掘中的数据预处理   总被引:34,自引:0,他引:34  
1 引言数据挖掘(Data Mining,简称DM),也称为数据库中的知识发现KDD(Knowledge Discovery inDatabase),是近几年来随着数据库和人工智能发展起来的一门新兴的数据库技术。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息。原始业务数据是知识和信息提取的源泉,对于数据挖掘就显得十分重要。目前所进行的关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨,而忽视了对数据处理的研究。目前一些比较成  相似文献   

8.
数据清理方法   总被引:4,自引:0,他引:4  
佘春红 《计算机应用》2002,22(12):128-130
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。  相似文献   

9.
该文讲述的是如何从现有的数据中获取新的知识,但是现有的数据中会存在不集中、杂乱,甚至还不完整数据.虽然使用数据挖掘机模型进行微调和开发还会出现一些杂音,但仍然可以从中获取到有用的数据,保证数据的质量.主要数据挖掘流程:获取数据、清洗数据、探索数据、建模数据、转换数据.  相似文献   

10.
数据清理综述   总被引:16,自引:0,他引:16  
由于各种原因 ,数据中存在这样或那样的脏数据需要清理 (净化 )。特别是数据仓库、KDD及TDQM(综合数据质量管理 )中 ,必须对数据进行清理。介绍了数据清理的有关内容、技术与实现方案 ,着重介绍了目前的两个重点研究、应用内容 :异常发现与记录重复  相似文献   

11.
半结构化数据是网络中一种重要的数据形式,也是进行数据挖掘的重要基础。因此要对Internet上巨量的数据进行数据挖掘,半结构化数据及模型是前提。本文介绍了半结构化数据的相关概念及其数据模型。  相似文献   

12.
数据清理中不完整数据的清理方法   总被引:7,自引:0,他引:7  
针对数据源中出现的不完整数据,提出一种有效的清理方法。  相似文献   

13.
何玉洁 《计算机教育》2009,(8):129-132,89
数据仓库是进行多角度数据分析的基础,在审计中可借助数据仓库技术分析数据,用以辅助发现问题和锁定审计重点。数据仓库中的数据结构是面向数据分析设计的,在构建数据仓库时需要对原始操作型的数据进行适当的清理和转换,使其更适合分析的需求。本文介绍了构建审计分析数据仓库中常见的数据清理和数据转换问题以及相应的解决技术。  相似文献   

14.
数据可视化在数据挖掘中的应用   总被引:2,自引:0,他引:2  
数据挖掘是从大量历史数据中抽取潜在的、有价值的知识或规则的过程。数据可视化对于快速分析数据,表示高维数据方面非常直观、有效。本文首先讨论了几种可视化技术,随后就数据可视化在数据挖掘的模型、过程中的应用进行探讨。  相似文献   

15.
本文以采油项目为例.着重讨论了商业智能在工业领域中的应用。[编者按]  相似文献   

16.
魏定国 《现代计算机》2002,(12):6-10,15
当今数据清理方案需要反复进行数据质量分析以查找错误,为修复它们而进行的转换需要运行很长的时间。用户需要忍受长时间的等待,而且经常需要撰写复杂的转换脚本。我们所探讨的交互式数据清理系统,它能紧密地将转换和偏差检测集成在一起,只要发现偏差,用户就可以交互式地使用简单的图表操作、实例描述逐渐建立一个转换,无需书写复杂的程序或忍受很长的延时。  相似文献   

17.
神经网络数据挖掘方法中的数据准备问题   总被引:16,自引:2,他引:14  
文章讨论了神经网络数据挖掘方法中的数据准备问题.首先简要介绍数据清洗与选择的基本方法,然后详细论述数据预处理、数据表示和数据集管理等方面的问题.  相似文献   

18.
RFID网络的数据清理技术   总被引:1,自引:0,他引:1       下载免费PDF全文
结合RFID网络数据质量和可靠性研究的最新进展,分类和评述了现有的数据清理技术,分析了平滑和判决方法、流水线方法、基于统计的估计方法、完整性约束的方法等。研究表明,针对不同的应用要求,需要多种数据清理技术的组合才可确保RFID阅读可靠性。  相似文献   

19.
数据的质量直接影响ERP项目的成效,因此数据清理工作在ERP项目中的地位举足轻重。本文立足某电力公司ERP项目建设的实际经验,概述了数据清理工作在ERP项目建设中的作用,重点叙述了数据清理工作的主要过程和方式方法,阐述了数据收集工作中的常见问题及处理方案,论述了数据清理工作保证措施,这些措施有助于提高数据的质量,对ER...  相似文献   

20.
瞿丹 《数字社区&智能家居》2014,(4):2182-2183,2198
科学技术水平的快速提升,让计算机在越来越多的领域得到普及与广泛应用。当前在很多的高校中慢慢的建立了相关的信息系统,用于人力资源的管理工作,同时积累了越来越多的数据。要想实现数据最大效率的运用,为高校人力资源组织建设工作奉献更大的价值,就需要借助一项技术对数据加以处理及筛选。数据挖掘技术的应用在大量人力资源数据中加以准确的定位,用最快的效率筛选出最有应用价值的数据资源,这对于高校办学工作的开展及人力资源规划工作的开展具有关键性的支撑意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号