首页 | 本学科首页   官方微博 | 高级检索  
     

主题爬行中的隧道穿越技术
引用本文:彭涛,孟宇,左万利,王英,胡亮.主题爬行中的隧道穿越技术[J].计算机研究与发展,2010,47(4).
作者姓名:彭涛  孟宇  左万利  王英  胡亮
作者单位:1. 吉林大学计算机科学与技术学院,长春,130012;符号计算与知识工程教育部重点实验室(吉林大学),长春,130012
2. 北京科技大学土木与环境工程学院,北京,100083
基金项目:国家自然科学基金项目(60903098,60973040);;吉林省科技发展计划基金项目(20070533);;教育部高等学校博士学科点专项科研基金项目(200801830021);;吉林大学基本科研业务费交叉学科与创新项目(200810025);;符号计算与知识工程教育部重点实验室资助项目(93K-17)~~
摘    要:由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的.

关 键 词:主题爬行  灰色隧道穿越  黑色隧道穿越  网页分块  target  length  

Tunneling Techniques for Focused Web Crawling
Abstract:Due to the complexity of the Web environment and topic-multiplicity of the contents of Web pages,it is quite difficult to get all the Web pages relevant to a specific topic.It is possible for an irrelevant Web page to link a relevant Web page,so it is required to traverse the irrelevant Web page to get more relevant pages.This procedure is called tunneling.In this paper,some research about tunneling technique is presented,and also presented is a correction to the previous results.Tunneling is partitioned in...
Keywords:focused Web crawling  grey tunneling  black tunneling  Web page segmentation  target length  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号