共查询到18条相似文献,搜索用时 78 毫秒
1.
脏数据是整个数据仓库的隐患,因此数据清理对维护数据仓库和大型数据库极有价值。本课题介绍和研究数据清理的方法和技术.重点讨论消除中文重复数据的分析方法.并且对这些方法进行验证.分析和实现。 相似文献
2.
重复数据的存在对数据管理和使用带来了极大的困扰,图数据能够很好地反应数据与数据之间的联系,是数据发展的趋势。对于重复数据对的检测已经有大量研究,但鲜有研究关注于对检测后数据对的合并清理。由于图数据中数据关联的复杂性,如果随意去掉其中一个数据将会带来数据间关系的混乱,所以,对于图数据中数据的去重问题更为重要。针对以上问题,为了保证图数据之间的关联关系和图的稳定性,研究在检测重复数据后,提出一种适合图数据中重复数据对的整合清理策略。该策略将图收缩性引入清理方法,针对不同的情况采用不同的处理方法,以保证清理后图的关联性和稳定性。 相似文献
3.
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用。本文在讨论常用清理方法的基础上,着重阐述了基于相似度分析的数据清理方法。 相似文献
4.
5.
6.
7.
8.
当今数据清理方案需要反复进行数据质量分析以查找错误,为修复它们而进行的转换需要运行很长的时间。用户需要忍受长时间的等待,而且经常需要撰写复杂的转换脚本。我们所探讨的交互式数据清理系统,它能紧密地将转换和偏差检测集成在一起,只要发现偏差,用户就可以交互式地使用简单的图表操作、实例描述逐渐建立一个转换,无需书写复杂的程序或忍受很长的延时。 相似文献
9.
10.
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程. 相似文献
11.
12.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性. 相似文献
13.
14.
基于遗传神经网络的数据清洗方法 总被引:5,自引:0,他引:5
现实世界中的数据常常是有噪声、不完全和不一致的,数据清洗能够帮助改善数据的质量,进而帮助提高数据挖掘的有效性和准确性。该文提出了一种基于遗传神经网络的数据清洗模型,它充分利用了神经网络的非线性映射和遗传算法的全局优化特性。实验证明,这种方法的可行性、有效性及处理精度都比较高。 相似文献
15.
16.
17.
关系数据库中近似重复记录的识别 总被引:5,自引:0,他引:5
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。 相似文献