首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据质量的Deep Web数据源排序
引用本文:余伟,李石君,文利娟,田建伟. 基于数据质量的Deep Web数据源排序[J]. 小型微型计算机系统, 2010, 31(4)
作者姓名:余伟  李石君  文利娟  田建伟
作者单位:1. 武汉大学,计算机学院,湖北,武汉,430079
2. 武汉理工大学,理学院,湖北,武汉,430072
基金项目:国家自然科学基金项目 
摘    要:Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.

关 键 词:抽样估计  数据质量  质量向量  数据源排序

Ranking of Deep Web Sources Dased on Data Quality
YU Wei,LI Shi-jun,WEN Li-juan,TIAN Jian-wei. Ranking of Deep Web Sources Dased on Data Quality[J]. Mini-micro Systems, 2010, 31(4)
Authors:YU Wei  LI Shi-jun  WEN Li-juan  TIAN Jian-wei
Affiliation:YU Wei1,LI Shi-jun1,WEN Li-juan2,TIAN Jian-wei11(School of Computer,Wuhan University,Wuhan 430079,China)2(College of Science,Wuhan University of Technology,Wuhan 430072,China)
Abstract:Deep Web technology makes a large number of useful information which hidden behind the interface easier to be found by users.However,with the increase of data source,how to find a suitable result quickly from a number of sources is becoming more and more important.In this paper,we start discussing from the quality of the data,setting 6 quality standards for the data source and giving the method of calculation.Meanwhile,we solve corresponding weight vector of quality standards by the feeling of the users;and...
Keywords:sampling estimates  data quality  quality vector  deep Web ranking  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号