首页 | 本学科首页   官方微博 | 高级检索  
     

使用分类器自动发现特定领域的深度网入口
引用本文:王 辉,刘艳威,左万利.使用分类器自动发现特定领域的深度网入口[J].软件学报,2008,19(2):246-256.
作者姓名:王 辉  刘艳威  左万利
作者单位:吉林大学,计算机科学与技术学院,吉林,长春,130012
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60373099 (国家自然科学基金),the Science and Technology Development Program of Jilin Province of China under Grant No.20070533 (吉林省科技发展计划)
摘    要:在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.

关 键 词:深度网  深度网  表层网  深度网入口  搜索表单
收稿时间:8/2/2007 12:00:00 AM
修稿时间:2007-11-06

Using Classifiers to Find Domain-Specific Online Databases Automatically
WANG Hui,LIU Yan-Wei and ZUO Wan-Li.Using Classifiers to Find Domain-Specific Online Databases Automatically[J].Journal of Software,2008,19(2):246-256.
Authors:WANG Hui  LIU Yan-Wei and ZUO Wan-Li
Abstract:In hidden Web domain, general-purpose search engines (i.e., Google and Yahoo) have their shortcomings. They cover less than one-third of the data stored in document databases. Unlike the surface Web, if combined, they cover roughly the same data. Hidden Web is a highly important information source since the content provided by many hidden Web sites is often of very high quality. This paper proposes a three-step framework to automatically identify domain-specific hidden Web entries. With those obtained query interfaces, they can be integrated to obtain a unified interface which is given to users to query. Eight large-scale experiments demonstrate that the technique can find domain-specific hidden Web entries accurately and efficiently.
Keywords:deep Web  hidden Web  surface Web  hidden Web entry  searchable form
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号