首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向Deep Web数据源的重复记录识别模型
引用本文:申德荣,刘丽楠,寇月,聂铁铮,于戈.一种面向Deep Web数据源的重复记录识别模型[J].电子学报,2010,38(2):275-281.
作者姓名:申德荣  刘丽楠  寇月  聂铁铮  于戈
作者单位:(东北大学信息科学与工程学院,辽宁沈阳 110004)
基金项目:国家自然科学基金(No.60973012,No.60693139);;国家863高技术研究发展计划(No.2008AA01Z146,No.2009AA01Z131)
摘    要:重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。 基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的。

关 键 词:重复记录  深层  web  数据清洗  
收稿时间:2008-04-18

A Duplicate Records Identification Model for Deep Web Data Sources
SHEN De-rong,LIU Li-nan,KOU Yue,NIE Tie-zheng,YU Ge.A Duplicate Records Identification Model for Deep Web Data Sources[J].Acta Electronica Sinica,2010,38(2):275-281.
Authors:SHEN De-rong  LIU Li-nan  KOU Yue  NIE Tie-zheng  YU Ge
Affiliation:School of Information and Science & Engineering, Northeastern University, Shenyang, Liaoning 110004, China
Abstract:Duplicate records are multiple different records describing the same entity in the real world.Since some of the records extracted from different Deep Web sources in the same domain usually are duplicates,the paper focuses on duplicate records identification and a duplicate records identification model is proposed on the basis of known global schema and the relationship between the global schema and the interface attributes of each Deep Web data source.Based on the semi-structured data extracted from Deep We...
Keywords:Duplicate records identification  deep web  data extraction  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《电子学报》浏览原始摘要信息
点击此处可从《电子学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号