首页 | 本学科首页   官方微博 | 高级检索  
     

一种高效的动态脚本网站有效页面获取方法
引用本文:夏 冰,高 军,王腾蛟,杨冬青. 一种高效的动态脚本网站有效页面获取方法[J]. 软件学报, 2009, 20(Z1): 176-183
作者姓名:夏 冰  高 军  王腾蛟  杨冬青
作者单位:北京大学 信息科学技术学院,北京 100871
基金项目:Supported by the National Natural Science Foundation of China under Grant No.60873062(国家自然科学基金); the National High-Tech Research and Development Plan of China under Grant Nos.2009AA01Z150, 2007AA01Z191, 2006AA01Z230 (国家高技术研究发展计划(863)); the Peking Universi
摘    要:随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅仅通过点击“”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,并总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,通过实验证明了我们方法的效率和性能.

关 键 词:动态脚本  AJAX  页面相似性  XPath  网络爬虫
收稿时间:2009-05-01
修稿时间:2009-07-20

An Efficient Valid Page Crawling Approach for Websites with Dynamic Scripts
XIA Bing,GAO Jun,WANG Teng-Jiao and YANG Dong-Qing. An Efficient Valid Page Crawling Approach for Websites with Dynamic Scripts[J]. Journal of Software, 2009, 20(Z1): 176-183
Authors:XIA Bing  GAO Jun  WANG Teng-Jiao  YANG Dong-Qing
Abstract:
Keywords:
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号