首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 468 毫秒
1.
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。  相似文献   

2.
使用联合链接相似度评估爬取Web资源   总被引:1,自引:0,他引:1  
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.  相似文献   

3.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

4.
刘徽  黄宽娜  余建桥 《计算机工程》2012,38(11):284-286
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页 面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。  相似文献   

5.
由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索;通过重放点击路径,自动完成目标节点的内容抓取;通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩,以缩减搜索空间,定义DOM树中候选节点到目标节点的距离作为h打分,进行启发式搜索。实验表明,所研究算法性能优良,对隐网页内容的抽取准确率达到89.48%,可应用在网页自动化测试、网页爬虫等领域。  相似文献   

6.
基于Web Service和Ajax技术的Web应用框架及安全性分析   总被引:1,自引:0,他引:1  
介绍了Ajax和Web Services的基本原理。提出了Ajax和Web Services结合的Web应用框架,此框架有效降低了服务器的负载,提高了客户端处理器的使用率,并具备了Ajax的优良特性。对该框架的安全模型、安全策略进行了初步的分析和探讨。  相似文献   

7.
Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前Ajax页面数据采集方法,同时通过StatusRank方法计算状态转移权值来分析状态迁移信息,最后生成WSFT。实验证明,该方法能有效地获取Ajax页面多状态文本信息,并且有助于后续Web挖掘的重要文本内容提取。  相似文献   

8.
方科亚 《福建电脑》2011,27(3):136-137
Ajax技术是目前深受Web用户所喜爱的一项技术。本文介绍了Ajax的运行机制、关键技术,研究了Ajax技术在Web中的应用,给出了基于Ajax技术的高校顶岗实习系统的应用实例。  相似文献   

9.
介绍了Ajax的基本原理及其在Web应用程序开发中的优势,探讨了在开发Web应用程序过程中如何有效地通过Ajax降低网络负载和改善用户浏览体验等问题,为开发和研究Web应用开辟了新的思路。  相似文献   

10.
刘高原  刘觉夫  张国平 《微计算机信息》2007,23(36):252-253,194
在介绍了Ajax原理及其关键技术以及JSF技术的基础上,提出了结合Ajax和JSF技术开发Web应用的方法。并对该Web应用的结构和具体设计进行了探讨。  相似文献   

11.
龙腾飞 《微机发展》2008,18(4):165-167
介绍了Ajax技术的基本概念及其关键技术,以ArcIMS为例分析了传统的网络地理信息系统(WebG1S)在数据传输模式和客服交互方式等方面存在的不足,阐述了在WebGIS中使用Aiax技术带来的优势,如减轻服务器的负担、平衡服务器和客户端的负载、无刷新更新页面、减少用户心理和实际的等待时间、实现地图的动态更新、实现地图的可视化交互以及开发效率高等,并指出在WebGIS中使用Ajax技术应该注意的诸如兼容性和用户习惯等问题。Aiax技术的应用将会为传统的WebGIS带来新的生命力。  相似文献   

12.
Ajax技术在Web2.0网站设计中的应用研究   总被引:1,自引:0,他引:1  
Ajax是Web领域的前沿技术,这种技术提供了新的互联网交互模型,并扩展了Web应用的能力。文中在介绍Ajax技术的工作原理、分析比较Ajax工作模式与传统Web工作模式区别的基础上,运用Ajax技术实现了网页的动态加载,用户的请求能更为迅捷地得到Web应用程序的回应。这样就避免了在网络上频繁地重复发送那些没有更新过的信息。相对于传统的Web应用,Ajax技术在丰富客户端的表现能力、改善用户体验中,表现了强大的交互性能。其原因在于Ajax技术实现了客户端与服务器间的数据通信,并提供了两者间异步通信的能力,因而降低了网络传输的数据量,均衡客户端与服务器间的负载。从而体现了Ajax技术提高系统效率与优化用户界面的优良性能。  相似文献   

13.
随着Web2.0的兴起,AJAX技术已日益运用到Web应用程序的开发当中。Ajax(Asynchronous JavaScript and XML),即异步调用JavaScript和XML,是一项集客户端与服务器端为一体的技术,它的运用可以大大改善WEB应用程序的用户体验,改变了程序的运行方式。在WEB应用程序中运用缓存,是提高WEB应用程序流畅性,减少网络负载最有效的方法。但直接运用浏览器的缓存,有着明显的缺陷。在深入探讨和分析的基础上,提出用基于的验证模型来实现缓存方法。  相似文献   

14.
目前传统爬虫无法爬取Ajax动态网站,为解决该问题,该文设计了一个支持Ajax的网络爬虫,提出了AjaxCrawler的体系结构,实现了浏览器、模拟器、控制器和自动机,并通过实验,进行了爬取结果的对比,证明了其效果。  相似文献   

15.
为了提高目前爬虫算法抓取结果的有效性, 提出了一种旨在获取有效信息的改进网络爬虫算法, 主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中, 网络资源定位符被分层存储, 在保留信息全部拓扑关系的基础上, 将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下, 实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据, 结果表明, 改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此, 分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。  相似文献   

16.
基于Web2.0的Ajax技术的开发   总被引:4,自引:0,他引:4  
Web2.0是目前正在兴起的Web技术,包括流行的博客和Ajax等技术。Ajax技术是多种以往技术的综合,是有着广泛应用的新技术。Ajax在大多数浏览器中都能使用,而且不需要任何专门的软件或硬件。它是一种客户端方法,可以与.NET,J2EE,PHP,CGI和Ruby等脚本交互。Ajax在众多地方得到应用,如:Google Maps,Gmail和Google Suggest。文中主要通过分析Ajax技术原理,将Ajax技术应用在项目开发中的级联菜单上。  相似文献   

17.
Ajax在Web中的应用研究   总被引:6,自引:1,他引:5  
Ajax通过浏览器与服务器之间的异步通信,解决了传统的Web应用中页面提交刷新过程中出现的弊端,实现了无刷新页面提交,增强了Web应用程序的互动性,改善了用户体验.本文介绍了Ajax的组成及技术框架,并通过一个实例给出了Ajax在Web开发中的典型应用,最后对Ajax技术的不足进行了分析并对Ajax的发展进行了展望.  相似文献   

18.
Web服务搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
随着开放的Web服务数量的逐渐递增,全面而有效地获取散落于Internet上的这类Web服务并进行管理就成为一个十分重要的问题。针对该问题,设计与实现了一个Web服务搜索引擎WSSE(Web Services Search Engine)。它不断爬行现有Web站点以搜索Web服务,并对搜集到的Web服务进行集中式管理,最后采用开源的Lucene对搜索到的Web服务建立索引,提高了Web服务的检索效率。  相似文献   

19.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号