首页 | 本学科首页   官方微博 | 高级检索  
     

基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
引用本文:陈小海,周娅. 基于主题相似度指导网络蜘蛛穿越隧道的爬行算法[J]. 计算机工程与科学, 2009, 31(10). DOI: 10.3969/j.issn.1007-130X.2009.10.035
作者姓名:陈小海  周娅
作者单位:桂林电子科技大学计算机与控制学院,广西,桂林,541004;桂林电子科技大学计算机与控制学院,广西,桂林,541004
基金项目:广西自然科学基金资助项目  
摘    要:隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。

关 键 词:主题网络蜘蛛  隧道穿越  主题相似度

A Crawling Algorithm Based on Topical Similarity for Guiding the Web Crawler Though Tunnels
CHEN Xiao-hai,ZHOU Ya. A Crawling Algorithm Based on Topical Similarity for Guiding the Web Crawler Though Tunnels[J]. Computer Engineering & Science, 2009, 31(10). DOI: 10.3969/j.issn.1007-130X.2009.10.035
Authors:CHEN Xiao-hai  ZHOU Ya
Abstract:Tunneling is always the difficulty of topical web crawling.On the basis of analysing the Web topical features and the shortcomings of the general tunneling technology,this paper raises the algorithm using topical similarity to guide the web crawler though tunnels,and improves the accuracy of topical similarity using the Naive Bayesian classifier.The experimental results show that this algorithm is better than the general tunneling technology in precision and recall rate.
Keywords:topical web crawler  tunneling  topical similarity
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号