一种大数据量的相似记录检测方法 An Approach for Detecting Similar Duplicate Records of Massive Data期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种大数据量的相似记录检测方法

引用本文：	韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212.

作者姓名：	韩京宇徐立臻董逸生

作者单位：	东南大学计算机科学与工程系,南京,210096

基金项目：	江苏省“十五”高科技基金项目（BG2001013）

摘要：	大数据量的相似重复记录检测是数据清洗中的一个重要问题，提出一种基于q-gram层次空间的聚类检测方法：它首先将数据映射成q-gram空间中的点，并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来．它克服了传统的“排序＆合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I／O代价过大的问题．理论分析和实验表明，方法不仅具有好的检测精度，且有好的伸缩性，能够有效地解决大数据量的相似重复记录检测．
关键词：	数据清洗 q-gram 相似重复记录层次聚类
收稿时间：	2004-05-31
修稿时间：	2004-05-312004-11-16
An Approach for Detecting Similar Duplicate Records of Massive Data

Han Jingyu,Xu Lizhen,Dong Yisheng.An Approach for Detecting Similar Duplicate Records of Massive Data[J].Journal of Computer Research and Development,2005,42(12):2206-2212.

Authors:	Han Jingyu Xu Lizhen Dong Yisheng

Affiliation:	Department of Computer Science and Engineering, Southeast University, Nanjing 210096

Abstract:

Keywords:	data cleaning q-gram similar duplicate records hierarchical clustering
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏