首页 | 本学科首页   官方微博 | 高级检索  
     

一个面向大规模数据仓库数据清洗策略的研究和实现
引用本文:汪恒杰,胡大斌,嵇晓.一个面向大规模数据仓库数据清洗策略的研究和实现[J].工程地质计算机应用,2004(3):10-13,28.
作者姓名:汪恒杰  胡大斌  嵇晓
作者单位:[1]上海宝信软件股份有限公司数据分析部,上海201900 [2]上海交通大学计算机科学与工程系博士后流动站,上海200030
摘    要:随着数据仓库和数据挖掘等商务智能技术在企业应用中的逐步实现,原始生产数据的集成并产生新的面向主题的、集成的、时变的、稳定的数据集合,就成为必须的支撑条件。但企业的数据往往存在着大量质量问题,这将直接影响基于企业数据的信息服务的质量。数据清洗就是通过各种措施,从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量。本文针对ETL过程中的数据清洗任务,提出了结合改进的N-Gram文法纠错算法和GDBR泛化算法的数据清洗策略,并根据COBRA和CWM标准开发了接口应用工具。实践表明,该策略是可行并且有效的。

关 键 词:数据仓库  数据清洗  COBRA  CWM  算法
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号