首页 | 本学科首页   官方微博 | 高级检索  
     

面向主题的Web信息收集系统的设计与实现
引用本文:潘春华,武港山.面向主题的Web信息收集系统的设计与实现[J].小型微型计算机系统,2003,24(12):2150-2154.
作者姓名:潘春华  武港山
作者单位:1. 南京大学,计算机软件新技术国家重点实验室,江苏,南京,210093
2. 南京大学,计算机科学与技术系,江苏,南京,210093
基金项目:国家自然科学基金 (60 0 730 30 )资助,国家教育部“现代远程教育关键技术研究重点项目”资助,富士通研究的项目资助
摘    要:随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展面向主题信息的专用网络信息检索工具已经成为趋势。文中提出的面向主题的Web信息收集系统是这类工具的核心部件,该系统采用文档矢量模型进行文档相关度计算,并结合页面链接的上下文信息过滤页面;借鉴并修改了Shark启发式查找算法来查找相关页面;可采用多机并行下载提高收集效率;并依据站点的重要程度进行动态更新。在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统,整个系统在低性能的台式机上就能运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。

关 键 词:Web信息收集系统  搜索引擎  信息检索  万维网  WWW  互联网  主题  系统设计
文章编号:1000-1220(2003)12-2150-05

Design and Implementation of a Topic-focused Web Information-gathering System
PAN Chun-hua,WU Gang-shan.Design and Implementation of a Topic-focused Web Information-gathering System[J].Mini-micro Systems,2003,24(12):2150-2154.
Authors:PAN Chun-hua  WU Gang-shan
Abstract:
Keywords:information-gathering  search engine  information retrieval  world wide web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号