首页 | 本学科首页   官方微博 | 高级检索  
     

面向Web的信息收集工具的设计与开发
引用本文:潘春华,常敏,武港山.面向Web的信息收集工具的设计与开发[J].计算机应用研究,2002,19(6):144-147.
作者姓名:潘春华  常敏  武港山
作者单位:南京大学,计算机软件新技术国家重点实验室;南京大学,计算机科学与技术系,江苏,南京,210093
基金项目:国家自然科学基金资助 (6 0 0 730 30 ),国家教育部“现代远程教育关键技术研究重点项目”、富士通研究的资助项目
摘    要:随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。

关 键 词:页面收集  信息处理  网络爬虫  万维网(WWW)
文章编号:1001-3695(2002)06-0144-04
修稿时间:2001年10月30

Design and Implementation of a Web Page-gathering Tool
PAN Chun-hua,CHANG Min,WU Gang-shan.Design and Implementation of a Web Page-gathering Tool[J].Application Research of Computers,2002,19(6):144-147.
Authors:PAN Chun-hua  CHANG Min  WU Gang-shan
Abstract:With the growth of Internet and the fact that information on Web are becoming abundant , Internet has become new stage of traditional information processing. Before processing these web information,people often download the distributed web information to local storage for additional processing,which is the core function of the information-gathering system described in this paper. This system makes use of the links between pages and content of these pages to gather needed information. It can support specific information gathering using a multiple-grade filter. It can also use multiple machines to boost the gathering efficiency. It supports large-scale information gathering , using large-scale database to store the meta information during gathering process and compressing downloaded pages. It can timely update local web copies using dynamic updating mechanism.
Keywords:Web Page-gathering  Information Processing  Web Crawler  World Wide Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号