首页 | 本学科首页   官方微博 | 高级检索  
     

一种大数据量的相似记录检测方法
引用本文:韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212.
作者姓名:韩京宇  徐立臻  董逸生
作者单位:东南大学计算机科学与工程系,南京,210096
基金项目:江苏省“十五”高科技基金项目(BG2001013)
摘    要:大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来.它克服了传统的“排序&合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题.理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测.

关 键 词:数据清洗  q-gram  相似重复记录  层次聚类
收稿时间:2004-05-31
修稿时间:2004-05-312004-11-16

An Approach for Detecting Similar Duplicate Records of Massive Data
Han Jingyu,Xu Lizhen,Dong Yisheng.An Approach for Detecting Similar Duplicate Records of Massive Data[J].Journal of Computer Research and Development,2005,42(12):2206-2212.
Authors:Han Jingyu  Xu Lizhen  Dong Yisheng
Affiliation:Department of Computer Science and Engineering, Southeast University, Nanjing 210096
Abstract:
Keywords:data cleaning  q-gram  similar duplicate records  hierarchical clustering
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号