首页 | 本学科首页   官方微博 | 高级检索  
     

一种相似重复记录检测算法的改进研究
引用本文:戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16.
作者姓名:戴颖  李兴国  赵启飞
作者单位:合肥工业大学管理学院,安徽,合肥,230009
基金项目:国家自然科学基金项目 
摘    要:相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向.

关 键 词:相似重复记录  增量式  聚类树  等级法

Improved Method for Detecting Incremental Approximately Duplicate Records
DAI Ying,LI Xing-guo,ZHAO Qi-fei.Improved Method for Detecting Incremental Approximately Duplicate Records[J].Computer Technology and Development,2010,20(7):13-16.
Authors:DAI Ying  LI Xing-guo  ZHAO Qi-fei
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号