首页 | 本学科首页   官方微博 | 高级检索  
     

位置编码在数据仓库ETL中的应用
引用本文:张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52.
作者姓名:张永  迟忠先
作者单位:1. 大连理工大学计算机系,大连,116024;辽宁师范大学计算机系,大连,116029
2. 大连理工大学计算机系,大连,116024
摘    要:为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。

关 键 词:数据清洗  位置编码  数据仓库  ETL  相似重复记录
文章编号:1000-3428(2007)01-0050-03
修稿时间:2006-01-05

Application of Position-coding in ETL of Data Warehouse
ZHANG Yong,CHI Zhongxian.Application of Position-coding in ETL of Data Warehouse[J].Computer Engineering,2007,33(1):50-52.
Authors:ZHANG Yong  CHI Zhongxian
Affiliation:1. Department of Computer Science and Engineering, Dalian University of Technology, Dalian 116024; 2. Department of Computer, Liaoning Normal University, Dalian 116029
Abstract:Data cleaning should be done before data mining in order to improve data quality of data warehouse.ETL is a crucial process of constructing data warehouse,which includes data cleaning.Examining and eliminating approximately duplicated records is one of key needed solution for data cleaning and data quality improving.This paper introduces the position-coding technology to ETL of data warehouse,presents a new examining algorithm of approximately duplicated records,and brings forward a dynamic method of variant level match thresholds.Experimental comparison with the previous work indicates that the method proposed is effective.
Keywords:Data cleaning  Position-coding  Data warehouse  ETL  Approximately duplicated records  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号