首页 | 本学科首页   官方微博 | 高级检索  
     

基于维基百科和网页分块的主题爬行策略
引用本文:熊忠阳,史艳,张玉芳. 基于维基百科和网页分块的主题爬行策略[J]. 计算机应用, 2011, 31(12): 3264-3267. DOI: 10.3724/SP.J.1087.2011.03264
作者姓名:熊忠阳  史艳  张玉芳
作者单位:重庆大学 计算机学院, 重庆 400044
基金项目:中央高校研究生科技创新基金个人项目资助
摘    要:针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来...

关 键 词:主题爬行  维基百科  主题描述  网页分块  相关度计算
收稿时间:2011-06-20
修稿时间:2011-08-11

Wikipedia-based focused crawling with page segmentation
XIONG Zhong-yang,SHI Yan,ZHANG Yu-fang. Wikipedia-based focused crawling with page segmentation[J]. Journal of Computer Applications, 2011, 31(12): 3264-3267. DOI: 10.3724/SP.J.1087.2011.03264
Authors:XIONG Zhong-yang  SHI Yan  ZHANG Yu-fang
Affiliation:College of Computer Science, Chongqing University, Chongqing 400044, China
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号