首页 | 本学科首页   官方微博 | 高级检索  
     

基于PageRank与Bagging的主题爬虫研究
引用本文:张翔,周明全,李智杰,董丽丽.基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14).
作者姓名:张翔  周明全  李智杰  董丽丽
作者单位:1. 西安建筑科技大学,信息与控制工程学院,陕西,西安,710055;西北大学,信息科学与技术学院,陕西,西安,710127
2. 北京师范大学,信息科学与技术学院,北京,100875
3. 西安建筑科技大学,信息与控制工程学院,陕西,西安,710055
基金项目:国家自然科学基金项目 
摘    要:为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法.将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块.利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取.用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页.实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果.

关 键 词:主题爬虫  搜索策略  主题相关性

Focused crawler based on PageRank and Bagging
ZHANG Xiang,ZHOU Ming-quan,LI Zhi-jie,DONG Li-li.Focused crawler based on PageRank and Bagging[J].Computer Engineering and Design,2010,31(14).
Authors:ZHANG Xiang  ZHOU Ming-quan  LI Zhi-jie  DONG Li-li
Abstract:
Keywords:PageRank  Bagging
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号