共查询到18条相似文献,搜索用时 62 毫秒
1.
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用。本文在讨论常用清理方法的基础上,着重阐述了基于相似度分析的数据清理方法。 相似文献
2.
3.
4.
5.
6.
7.
数据仓库是进行多角度数据分析的基础,在审计中可借助数据仓库技术分析数据,用以辅助发现问题和锁定审计重点。数据仓库中的数据结构是面向数据分析设计的,在构建数据仓库时需要对原始操作型的数据进行适当的清理和转换,使其更适合分析的需求。本文介绍了构建审计分析数据仓库中常见的数据清理和数据转换问题以及相应的解决技术。 相似文献
8.
面向信息检索需要的网络数据清理研究 总被引:2,自引:0,他引:2
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。 相似文献
9.
当今数据清理方案需要反复进行数据质量分析以查找错误,为修复它们而进行的转换需要运行很长的时间。用户需要忍受长时间的等待,而且经常需要撰写复杂的转换脚本。我们所探讨的交互式数据清理系统,它能紧密地将转换和偏差检测集成在一起,只要发现偏差,用户就可以交互式地使用简单的图表操作、实例描述逐渐建立一个转换,无需书写复杂的程序或忍受很长的延时。 相似文献
10.
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程. 相似文献
11.
RFID(射频识别)标签阅读器对操作环境的敏感性很高,导致其产生的RFID数据流不可靠,并含有大量的漏读,因此必须要对原始数据进行清洗。设计基于滑动窗口的自适应数据清洗算法,算法使用滑动窗口技术和二项分布模型计算合适的窗口大小,通过窗口子区间的监测结果和标签的状态来动态调整窗口大小。结果显示,在移动环境下本算法比SMURF算法产生的平均错误数少,性能更加优越,准确率和稳定性都有明显提高。
相似文献
12.
RFID技术现已广泛应用在供应链、制药监管等领域,然而数据的不准确性制约了RFID技术的进一步发展.为提供高质量的RFID数据给高层应用,对RFID原始数据进行清洗十分必要.本文提出一种基于卡尔曼滤波过滤的数据清洗方法KAL-RFID,有效地解决了单个阅读器的消极读和积极读问题以及动态标签跃迁产生的延迟问题.实验结果表明KAL-RFID方法提高了清洗效率,并且得到更准确的清洗结果. 相似文献
13.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程。文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证。并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构。 相似文献
14.
数据质量和数据清洗研究综述 总被引:75,自引:1,他引:75
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望. 相似文献
15.
可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率。 相似文献
16.
可扩展性和可交互性是数据清洗系统的主要特征。为了说明此系统的特点,列举产生异常数据的原因,用系统框架图来解释各个功能模块,提出用统计学等方法检测异常数据,针对不同类型的异常数据提出相应的清洗策略,并说明如何评估算法的优良性和数据准确性,最后用流程图来说明整个系统。人口数据清洗结果显示人口数据质量大幅度提高了,同时也证明此系统有很高的执行效率。 相似文献
17.
基于监控对象动态聚簇的高效RFID数据清洗模型 总被引:1,自引:0,他引:1
由于RFID(radio frequency identification)技术采用无线射频信号进行数据通信,漏读和多读现象时有发生,降低了其在事件检测中查询结果的准确性.在很多RFID监控应用中,监控物体都是以动态变化的小组为单位进行活动的.通过定义关联度和动态聚簇对各个RFID监控物体所在的小组进行动态的分析,并在此基础上定义了一套关联度维护和数据清洗的模型和算法,通过对图模型进行压缩,提出了基于分裂重组思想的链模型关联度维护策略,提高了维护的时空效率.模拟实验结果表明,该数据清洗模型可以获得较好的效率和准确性. 相似文献