首页 | 本学科首页   官方微博 | 高级检索  
     

聚焦爬虫技术研究综述
引用本文:周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969.
作者姓名:周立柱  林玲
作者单位:清华大学计算机科学与技术系
基金项目:国家自然科学基金资助项目(60173008)
摘    要:因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。

关 键 词:聚焦爬虫  信息检索  链接分析  文本检索  数据抽取  协作抓取  本体描述  元搜索
文章编号:1001-9081(2005)09-1965-05
收稿时间:2005-07-03
修稿时间:2005-07-032005-07-20

Survey on the research of focused crawling technique
ZHOU Li-Zhu,LIN Ling.Survey on the research of focused crawling technique[J].journal of Computer Applications,2005,25(9):1965-1969.
Authors:ZHOU Li-Zhu  LIN Ling
Affiliation:Department of Computer Science and Technology,Tsinghua University,Beijing 10084,China
Abstract:
Keywords:focused crawler  information retrieval  link analysis  text retrieval  data extraction  collaborative crawling  ontology  metaseareh
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号