首页 | 本学科首页   官方微博 | 高级检索  
     

基于聚类汇总的记录匹配算法
引用本文:王天江,刘芳,卢正鼎.基于聚类汇总的记录匹配算法[J].计算机工程与科学,2004,26(9):62-63.
作者姓名:王天江  刘芳  卢正鼎
作者单位:华中科技大学计算机学院,湖北,武汉,430074
基金项目:国家高性能计算基金资助项目 ( 0 0 3 0 3 ),华中科技大学科学研究基金资助项目 (M990 15 )
摘    要:记录匹配算法在异构数据的集成和数据开采等领域应用广泛,其主要任务是找出来自不同数据源中代表同一对象实体的记录,这些记录具备相似的属性和属性值。为避免组合爆炸问题,现有的记录匹配算法不再对数据库中的记录数两两匹配,而是结合排序策略和静态聚类匹配方法实现,但这种静态方法不适应数据的动态变化。因此,本文提出基于聚类汇总的记录匹配算法,该算法可以解决静态方法导致的匹配记录丢失问题,同时能够减少计算量,提高匹配记录搜索效率。

关 键 词:聚类汇总  记录匹配  模式匹配  重复记录发现  聚类分析
文章编号:1007-130X(2004)09-0062-02

A Record Matching Algorithm Based on Clustering Collection
Abstract:The record matching algorithm is widely used in the fields of heterogeneous data integration and data mining,etc. The task of the algorithm is to discover the records which represent the same entity from different sources. The records have the approximate attributes and attribute values. To avoid the problem of combination explosion,the existing record matching algorithms will no longer be used to perform pair-wise record matching. They integrate the data sorting policy with the static clustering matching method. But the static method is unsuitable for dynamic data changing. Therefore, a record matching algorithm based on clustering collection is proposed. The algorithm can solve the problem of matched record loss caused by the static method. It can also improve the efficiency of matched record searching.
Keywords:record matching  clustering collection  clustering analysis
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号