首页 | 本学科首页   官方微博 | 高级检索  
     

基于遗传算法的主题爬虫
引用本文:张海亮,袁道华.基于遗传算法的主题爬虫[J].计算机技术与发展,2012(8).
作者姓名:张海亮  袁道华
作者单位:四川大学计算机学院,四川成都610065
摘    要:针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题

关 键 词:遗传算法  爬虫  主题爬虫  主题相关度  网页重要性
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号