基于JavaScript 切片的AJAX 框架网络爬虫技术研究 |
| |
引用本文: | 曾伟辉,李 淼.基于JavaScript 切片的AJAX 框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171. |
| |
作者姓名: | 曾伟辉 李 淼 |
| |
作者单位: | 1. 中国科学院合肥智能机械研究所,安微,合肥,230031;中国科学技术大学,信息科学技术学院自动化系,安微,合肥,230027 2. 中国科学院合肥智能机械研究所,安微,合肥,230031 |
| |
基金项目: | 中国科学院知识创新工程重要方向项目(KGCX2-SW-511) |
| |
摘 要: | 自Jesse James Garrett 提出了AJAX 概念以来,由于AJAX 在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在AJAX框架的URL 解析过程中存在着不能够识别事件触发顺序等问题,导致大量数据不能被搜索引擎有效检索。本文针对此问题,通过研究基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作,最终解决AJAX 框架中URL 提取以及异步JavaScript 网络爬虫系统的关键技术问题。
|
关 键 词: | JavaScript 程序切片 网络爬虫 有限状态机 AJAX |
收稿时间: | 2008/10/27 0:00:00 |
Web Crawler Technology of AJAX Frame Based on JavaScript Slicing |
| |
Abstract: | |
| |
Keywords: | JavaScript AJAX |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载全文 |
|