首页 | 本学科首页   官方微博 | 高级检索  
     

基于JavaScript 切片的AJAX 框架网络爬虫技术研究
引用本文:曾伟辉,李 淼.基于JavaScript 切片的AJAX 框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171.
作者姓名:曾伟辉  李 淼
作者单位:1. 中国科学院合肥智能机械研究所,安微,合肥,230031;中国科学技术大学,信息科学技术学院自动化系,安微,合肥,230027
2. 中国科学院合肥智能机械研究所,安微,合肥,230031
基金项目:中国科学院知识创新工程重要方向项目(KGCX2-SW-511)
摘    要:自Jesse James Garrett 提出了AJAX 概念以来,由于AJAX 在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在AJAX框架的URL 解析过程中存在着不能够识别事件触发顺序等问题,导致大量数据不能被搜索引擎有效检索。本文针对此问题,通过研究基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作,最终解决AJAX 框架中URL 提取以及异步JavaScript 网络爬虫系统的关键技术问题。

关 键 词:JavaScript  程序切片  网络爬虫  有限状态机  AJAX
收稿时间:2008/10/27 0:00:00

Web Crawler Technology of AJAX Frame Based on JavaScript Slicing
Abstract:
Keywords:JavaScript  AJAX
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号