首页 | 本学科首页   官方微博 | 高级检索  
     

一种Deep Web爬虫的设计与实现
引用本文:荣光,张化祥. 一种Deep Web爬虫的设计与实现[J]. 计算机与现代化, 2009, 0(3)
作者姓名:荣光  张化祥
作者单位:山东师范大学信息科学与工程学院,山东,济南250014;山东师范大学信息科学与工程学院,山东,济南250014
摘    要:随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.

关 键 词:Deep Web  Web爬虫  表单

Design and Implementation of a Deep Web Crawler
RONG Guang,ZHANG Hua-xiang. Design and Implementation of a Deep Web Crawler[J]. Computer and Modernization, 2009, 0(3)
Authors:RONG Guang  ZHANG Hua-xiang
Affiliation:School of Information Science and Engineering;Shandong Normal University;Jinan 250014;China
Abstract:As the World Wide Web grows rapidly,more and more data become available in the Deep Web.The data can be obtained by submiting form in the Web pages and arise dynamicly from Deep Web database.Traditional Web crawler only can retrieve Surface Web page by following hyperlinks.Since there is no static links to the hidden Web pages,most search engines cannot discover and index such pages.However,compared to surface Web,the information provided by hidden Web sites is often of more high quality and can be more val...
Keywords:Deep Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号