首页 | 本学科首页   官方微博 | 高级检索  
     

一种Deep Web聚焦爬虫
引用本文:黄昊晶.一种Deep Web聚焦爬虫[J].广东电脑与电讯,2011(3):30-31,37.
作者姓名:黄昊晶
作者单位:广东水利电力职业技术学院,广东广州,510635;苏州大学智能信息处理及应用研究所,江苏苏州,215006
基金项目:广东水利电力职业技术学院中青年科研项目:"Deep Web数据源发现与聚焦爬虫研究";项目
摘    要:聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.

关 键 词:聚焦爬虫  Deep  Web  PageRank  网站结构图剪枝  页面判断

A Kind of Deep Web Focused Crawler
Huang Haojing.A Kind of Deep Web Focused Crawler[J].Computer & Telecommunication,2011(3):30-31,37.
Authors:Huang Haojing
Abstract:
Keywords:Deep Web  PageRank
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号