首页 | 本学科首页   官方微博 | 高级检索  
     

基于遗传算法的主题爬虫策略改进
引用本文:陈一峰,赵恒凯,余小清,万旺根.基于遗传算法的主题爬虫策略改进[J].计算机仿真,2010,27(10).
作者姓名:陈一峰  赵恒凯  余小清  万旺根
基金项目:国家自然科学基金,上海市教委重点学科建设项目
摘    要:针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略.在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高.与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上.

关 键 词:主题爬虫  排序算法  遗传算法  网页信息

Improvement of Focused Crawling Strategy Based on Genetic Algorithm
CHEN Yi-feng,ZHAO Heng-kai,YU Xiao-qing,WAN Wang-gen.Improvement of Focused Crawling Strategy Based on Genetic Algorithm[J].Computer Simulation,2010,27(10).
Authors:CHEN Yi-feng  ZHAO Heng-kai  YU Xiao-qing  WAN Wang-gen
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号