首页 | 本学科首页   官方微博 | 高级检索  
     

面向垂直搜索引擎的Web站点划分方案
引用本文:李学凯,许笑,孙春奇,张伟哲,李斌.面向垂直搜索引擎的Web站点划分方案[J].计算机工程,2010,36(8):275-277.
作者姓名:李学凯  许笑  孙春奇  张伟哲  李斌
作者单位:哈尔滨工业大学计算机学院,哈尔滨,150001
基金项目:国家自然科学基金资助项目(60703014);;国家“973”计划基金资助项目(G2005CB321806);;高等学校博士学科点专项科研基金资助项目(20070213044);;哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)
摘    要:分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。

关 键 词:垂直搜索引擎  任务分配  网站划分  爬虫
修稿时间: 

Web Site Partition Scheme for Vertical Search Engine
LI Xue-kai,XU Xiao,SUN Chun-qi,ZHANG Wei-zhe,LI Bin.Web Site Partition Scheme for Vertical Search Engine[J].Computer Engineering,2010,36(8):275-277.
Authors:LI Xue-kai  XU Xiao  SUN Chun-qi  ZHANG Wei-zhe  LI Bin
Affiliation:(College of Computer, Harbin Institute of Technology, Harbin 150001)
Abstract:In allusion to the problem of traditional search engines' task allocating methods,a new fine-grained method called Web site partition is presented,which is as an effective optimization of the traditional method adopted by vertical search engines.This method divides large-scale Web sites into a number of smaller subsets,so that several crawlers can parallel crawl each subset in order to accelerate the overall downloading progress.The proposed algorithm is proved to be effective against the sample data sets.
Keywords:vertical search engine  task allocation  Web site partition  crawler
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号