首页 | 本学科首页   官方微博 | 高级检索  
     

基于遗传算法的聚焦爬虫搜索策略
引用本文:曾广朴,范会联. 基于遗传算法的聚焦爬虫搜索策略[J]. 计算机工程, 2010, 36(11): 167-169
作者姓名:曾广朴  范会联
作者单位:长江师范学院数学与计算机学院,涪陵,408100
基金项目:重庆市教委科学技术研究基金资助项目“网络聚焦爬虫研究与设计”(KJ091309)
摘    要:为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。

关 键 词:聚焦爬虫  遗传算法  小生境  主题相关度

Search Strategy of Focused Crawler Based on Genetic Algorithm
ZENG Guang-pu,FAN Hui-lian. Search Strategy of Focused Crawler Based on Genetic Algorithm[J]. Computer Engineering, 2010, 36(11): 167-169
Authors:ZENG Guang-pu  FAN Hui-lian
Affiliation:(School of Mathematics and Computer, Yangtze Normal University, Fuling 408100)
Abstract:In order to improve the search efficiency of focused crawler, based on Niche Genetic Algorithm(NGA), this paper proposes a global optimization of search strategy which combines the advantages of content evaluation and link structure. URL search direction is guided by improving the genetic operators and NGA. Compared with other algorithms, experimental results indicate that this strategy has higher precision and recall in searching the topic pages.
Keywords:focused crawler  genetic algorithm  niche  topic relevancy
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号