首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于HITS的主题敏感爬行方法
引用本文:蒋宗礼,徐学可,李帅.一种基于HITS的主题敏感爬行方法[J].计算机应用,2008,28(4):942-944.
作者姓名:蒋宗礼  徐学可  李帅
作者单位:1. 北京工业大学,计算机学院,北京,100022
2. 清华大学,电子工程系,北京,100084
摘    要:基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。

关 键 词:主题爬虫  超链接引导的主题搜索  主题模型
文章编号:1001-9081(2008)04-0942-03
收稿时间:2007-10-25
修稿时间:2007年10月25

HITS-based topic sensitive crawling method
JIANG Zong-li,XU Xue-ke,LI Shuai.HITS-based topic sensitive crawling method[J].journal of Computer Applications,2008,28(4):942-944.
Authors:JIANG Zong-li  XU Xue-ke  LI Shuai
Affiliation:JIANG Zong-li1,XU Xue-ke1,LI Shuai2(1.College of Computer Science,Beijing University of Technology,Beijing 100022,China,2.Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)
Abstract:Topic crawler is a new and practical application in the field of information retrieval. The main idea is to selectively collect Web pages on a predefined topic and avoid downloading irrelative Web pages in order to find more accurate and useful information for the user. Several key issues of topic crawler were discussed and corresponding new approaches were proposed. Then a topic crawler system was designed and implemented, employing topic sensitive Hyperlink-Induced Topic Search (HITS) to predict the priority of fetched Web pages. The experiments show our system performs well.
Keywords:topic crawler  Hperlink-Induced Topic Search (HITS)  topic model
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号