首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 890 毫秒
1.
基于JavaScript 切片的AJAX 框架网络爬虫技术研究   总被引:1,自引:0,他引:1  
自Jesse James Garrett 提出了AJAX 概念以来,由于AJAX 在提升用户交互体验的同时,又不需要在客户端安装插件。因此,一经提出就引起了互联网领域的广泛关注。但目前的网络爬虫技术在AJAX框架的URL 解析过程中存在着不能够识别事件触发顺序等问题,导致大量数据不能被搜索引擎有效检索。本文针对此问题,通过研究基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作,最终解决AJAX 框架中URL 提取以及异步JavaScript 网络爬虫系统的关键技术问题。  相似文献   

2.
《计算机与网络》2012,(12):38-39
网络爬虫概述网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取  相似文献   

3.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

4.
网路嗅探器能够分析出一段网络中数据包使用的协议、IP、源端口等内容,经常用来检测一段网络的运行状况,排除网络故障。网路协议纷繁众多,采用Lua嵌入脚本来解析协议数据包,能够使程序灵活的扩展。本文简要介绍了嗅探器和Lua的概念;然后着重阐述了Lua脚本嵌入方案关键技术,对如何实现系统功能给予详细的描述;最后展示了Lua嵌入脚本实现的功能。通过测试表明,Lua嵌入脚本模块能够有效的使用新编的嵌入协议脚本来解析相应数据包。  相似文献   

5.
《软件》2016,(9):94-97
随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为基础的网络爬虫提出了新的挑战。本文利用Web Driver实现了一个定向网络爬虫,该爬虫能够自动采集指定网页数据,支持Ajax等动态技术,能够对简单验证码进行识别,并绕过爬虫检测。利用该爬虫对全国企业信用信息系统进行爬取,取得了良好效果。  相似文献   

6.
目前传统爬虫无法爬取Ajax动态网站,为解决该问题,该文设计了一个支持Ajax的网络爬虫,提出了AjaxCrawler的体系结构,实现了浏览器、模拟器、控制器和自动机,并通过实验,进行了爬取结果的对比,证明了其效果。  相似文献   

7.
一种基于状态转换图的Ajax爬行算法   总被引:1,自引:1,他引:0  
传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以获取Ajax应用状态信息和后台Deep Web资源。为了提高Ajax爬行的准确性、减少待爬行的状态数目,使用Ajax指纹识别、DOM结构过滤等方法改进上述算法。实验结果表明了算法的有效性和性能。  相似文献   

8.
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。  相似文献   

9.
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题.实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度.  相似文献   

10.
Windows脚本程序能够在Windows系统环境下快速地完成机房软件的安装与部署,为机房维护与管理节省大量的人力和财力资源。该文设计了Windows脚本执行流程图,分别实现了读取主机名、修改UGS配置文件、修改UGS环境变量、读取MAC地址、修改ProE配置文件、重启计算机和删除脚本程序等七个功能模块。实践证明,采用Windows脚本程序,能够快速解决软件的批量安装与配置问题。  相似文献   

11.
深层网站Ajax页面数据采集研究综述   总被引:1,自引:0,他引:1  
如果能够提高网络爬虫采集Ajax网页数据的能力, 必然会提高搜索引擎的覆盖率和准确率。因此, 深层网站Ajax页面数据采集成为当前网络爬虫技术研究的热点之一。从深层网站Ajax页面数据采集的研究目标、近年来国内外采取的研究方法和取得的成果(研究领域、采集流程、支撑技术)、未来的研究方向三个方面进行了综述。  相似文献   

12.
基于.NET的Ajax控件保值技术及其应用   总被引:4,自引:1,他引:3       下载免费PDF全文
在页面内使用Ajax技术与服务器通信可提高Web应用的响应速度,但Web服务器控件引起的页面刷新导致整个页面回传后,页面的视图状态处理模型并没有记录Ajax控件在页面变化之前的值,造成Ajax控件值的丢失。该文提出一种状态保存机制,将Ajax控件状态值存储到服务器的Session或者客户端的userData中,使页面刷新后客户端的Ajax控件仍可保留原有值,保证控件状态的持续。  相似文献   

13.
搜索引擎是Internet信息服务的主体,搜索引擎的设计是各网站建设的重要部分。介绍了搜索引擎的分类和各类搜索引擎的工作过程。在此基础上,指出了蜘蛛程序是由网页下载和网页内容分析及信息提取两部分组成,并结合用C Builder作为开发工具给出了这两部分的源代码示例。最后介绍了蜘蛛程序设计要注意的问题。  相似文献   

14.
基于总线模型和Json的Ajax安全开发模型   总被引:2,自引:1,他引:1  
针对Ajax开发中可能出现的安全问题,提出了一种安全开发模型.该模型基于总线模型实现,能够在单一的点上进行安全策略控制;数据传输使用Json协议,这在Ajax中能够提供高灵活性和高效率的数据传输;安全策略文件使用XML,易于理解和维护,只需妥善编辑这个安全策略文件,便能够对整个应用程序提供完善的安全保护.  相似文献   

15.
Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前Ajax页面数据采集方法,同时通过StatusRank方法计算状态转移权值来分析状态迁移信息,最后生成WSFT。实验证明,该方法能有效地获取Ajax页面多状态文本信息,并且有助于后续Web挖掘的重要文本内容提取。  相似文献   

16.
AJAX 应用的典型设计模式   总被引:5,自引:2,他引:3  
AJAX是WEB领域的前沿技术,它提供了新的互联网交互模型,扩展了WEB应用的能力。文章对比分析了AJAX工作模式与传统WEB工作模式的主要区别,提出了动态加载、预见式缓存、内容分块三个典型的AJAX应用设计模式,并较为深入地分析了各个模式的设计原理,展示了相关的实例代码。  相似文献   

17.
随着Web2.0的兴起,AJAX技术已日益运用到Web应用程序的开发当中。Ajax(Asynchronous JavaScript and XML),即异步调用JavaScript和XML,是一项集客户端与服务器端为一体的技术,它的运用可以大大改善WEB应用程序的用户体验,改变了程序的运行方式。在WEB应用程序中运用缓存,是提高WEB应用程序流畅性,减少网络负载最有效的方法。但直接运用浏览器的缓存,有着明显的缺陷。在深入探讨和分析的基础上,提出用基于的验证模型来实现缓存方法。  相似文献   

18.
介绍了Ajax技术的特点和实现过程.阐述了社区警务管理系统的基本概况以及在传统Web应用模型中存在的主要问题,设计实现了基于Ajax异步数据交互的社区警务管理系统,重点介绍了社区警务管理系统的系统结构和关键技术.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号