首页 | 本学科首页   官方微博 | 高级检索  
     

面向Deep Web本地化数据集成的数据源两层选择模型
作者单位:;1.江苏省现代企业信息化应用支撑软件工程技术研发中心;2.苏州大学智能信息处理及应用研究所
摘    要:针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。

关 键 词:深层网页  数据集成  数据源选择  数据源质量  效用模型  递归增量策略

Data Source Two-layer Selection Model for Deep Web Localized Data Integration
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号