首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用。本文在讨论常用清理方法的基础上,着重阐述了基于相似度分析的数据清理方法。  相似文献   

2.
数据清理研究   总被引:2,自引:0,他引:2  
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。  相似文献   

3.
为了实现从大量不可靠、冗余的RFID(radio frequency identification)流数据中提取有效信息,提高RFID系统中数据的质量,提出了一种基于有限状态机的RFID 流数据过滤与清理方法.实验结果表明:该方法能够有效过滤系统外标签数据,清理系统内部冗余标签数据,筛选有效标签数据,并能够降低漏读、误读带来的风险.最后,利用地理信息系统的可视化技术,将过滤与清理结果展示在地图上.  相似文献   

4.
数据清理方法   总被引:4,自引:0,他引:4  
佘春红 《计算机应用》2002,22(12):128-130
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。  相似文献   

5.
数据清理综述   总被引:16,自引:0,他引:16  
由于各种原因 ,数据中存在这样或那样的脏数据需要清理 (净化 )。特别是数据仓库、KDD及TDQM(综合数据质量管理 )中 ,必须对数据进行清理。介绍了数据清理的有关内容、技术与实现方案 ,着重介绍了目前的两个重点研究、应用内容 :异常发现与记录重复  相似文献   

6.
数据清理中不完整数据的清理方法   总被引:7,自引:0,他引:7  
针对数据源中出现的不完整数据,提出一种有效的清理方法。  相似文献   

7.
何玉洁 《计算机教育》2009,(8):129-132,89
数据仓库是进行多角度数据分析的基础,在审计中可借助数据仓库技术分析数据,用以辅助发现问题和锁定审计重点。数据仓库中的数据结构是面向数据分析设计的,在构建数据仓库时需要对原始操作型的数据进行适当的清理和转换,使其更适合分析的需求。本文介绍了构建审计分析数据仓库中常见的数据清理和数据转换问题以及相应的解决技术。  相似文献   

8.
面向信息检索需要的网络数据清理研究   总被引:2,自引:0,他引:2  
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。  相似文献   

9.
魏定国 《现代计算机》2002,(12):6-10,15
当今数据清理方案需要反复进行数据质量分析以查找错误,为修复它们而进行的转换需要运行很长的时间。用户需要忍受长时间的等待,而且经常需要撰写复杂的转换脚本。我们所探讨的交互式数据清理系统,它能紧密地将转换和偏差检测集成在一起,只要发现偏差,用户就可以交互式地使用简单的图表操作、实例描述逐渐建立一个转换,无需书写复杂的程序或忍受很长的延时。  相似文献   

10.
孙进 《福建电脑》2010,26(12):69-70
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程.  相似文献   

11.
RFID(射频识别)标签阅读器对操作环境的敏感性很高,导致其产生的RFID数据流不可靠,并含有大量的漏读,因此必须要对原始数据进行清洗。设计基于滑动窗口的自适应数据清洗算法,算法使用滑动窗口技术和二项分布模型计算合适的窗口大小,通过窗口子区间的监测结果和标签的状态来动态调整窗口大小。结果显示,在移动环境下本算法比SMURF算法产生的平均错误数少,性能更加优越,准确率和稳定性都有明显提高。   相似文献   

12.
RFID技术现已广泛应用在供应链、制药监管等领域,然而数据的不准确性制约了RFID技术的进一步发展.为提供高质量的RFID数据给高层应用,对RFID原始数据进行清洗十分必要.本文提出一种基于卡尔曼滤波过滤的数据清洗方法KAL-RFID,有效地解决了单个阅读器的消极读和积极读问题以及动态标签跃迁产生的延迟问题.实验结果表明KAL-RFID方法提高了清洗效率,并且得到更准确的清洗结果.  相似文献   

13.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程。文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证。并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构。  相似文献   

14.
数据质量和数据清洗研究综述   总被引:75,自引:1,他引:75  
郭志懋  周傲英 《软件学报》2002,13(11):2076-2082
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.  相似文献   

15.
可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率。  相似文献   

16.
可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率。  相似文献   

17.
基于监控对象动态聚簇的高效RFID数据清洗模型   总被引:1,自引:0,他引:1  
谷峪  于戈  胡小龙  王义 《软件学报》2010,21(4):632-643
由于RFID(radio frequency identification)技术采用无线射频信号进行数据通信,漏读和多读现象时有发生,降低了其在事件检测中查询结果的准确性.在很多RFID监控应用中,监控物体都是以动态变化的小组为单位进行活动的.通过定义关联度和动态聚簇对各个RFID监控物体所在的小组进行动态的分析,并在此基础上定义了一套关联度维护和数据清洗的模型和算法,通过对图模型进行压缩,提出了基于分裂重组思想的链模型关联度维护策略,提高了维护的时空效率.模拟实验结果表明,该数据清洗模型可以获得较好的效率和准确性.  相似文献   

18.
刘云恒  刘耀宗  张宏 《计算机科学》2016,43(Z11):482-485
原始RFID数据流含有大量噪声且具有不确定性,必须在使用之前对其进行数据清洗,而清洗策略是清洗质量的保证。提出一种适合不确定RFID数据流的清洗策略。该清洗策略引入了最大熵原理,对待清洗的RFID元组的特征属性进行权重选择,并根据清洗节点的时间消耗以及误差进行清洗成本分析,决策出最佳的清洗方法。仿真实验结果表明,该清洗策略提高了不确定RFID数据流的清洗效率与精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号