首页 | 本学科首页   官方微博 | 高级检索  
     

Deep Web爬虫爬行策略研究
引用本文:郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158.
作者姓名:郑冬冬  崔志明
作者单位:苏州大学,智能信息处理及应用研究所,江苏,苏州,215006
基金项目:高等学校博士学科点专项科研项目;江苏省高技术研究发展计划项目
摘    要:如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。

关 键 词:Deep  Web爬虫  查询选择  查询效能  适应性爬行算法
文章编号:1000-7024(2006)17-3154-05
收稿时间:2005-10-13
修稿时间:2005-10-13

On research of deep web crawler's crawling strategy
ZHENG Dong-dong,CUI Zhi-ming.On research of deep web crawler''''s crawling strategy[J].Computer Engineering and Design,2006,27(17):3154-3158.
Authors:ZHENG Dong-dong  CUI Zhi-ming
Affiliation:Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China
Abstract:
Keywords:Deep Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号