首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对日益突出的网页访问问题,设计了一种新型分布式Web Spider.该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力.实验结果表明该分布式Web Spider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能.  相似文献   

2.
针对带中心节点结构的分布式并行Web Spider的中心节点负担过重、通信负载不均衡、可扩展性差的问题,提出基于Rabin指纹算法的URL去重改进算法和节点对等结构的改进方案,利用ProActive中间件设计开发改进的分布式并行Web Spider。对比实验表明,改进后的Web Spider采集效率更高,通信负载均衡,无节点瓶颈问题,具有良好的可扩展性。  相似文献   

3.
张林才  梁正友 《计算机工程》2008,34(19):47-48,5
单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-Spider采集速率是单机多线程Web Spider的2.2倍。  相似文献   

4.
针对网页被篡改后的访问保护和快速恢复问题,以分布式网页防篡改系统的备份恢复为背景,提出一种基于本地快照和Rsync同步的Web文件保护方法.当Web页面被篡改时,Web服务器通过快照技术将原Web页面的映像发送给用户浏览,使得系统完好无损,进一步调用Rsync算法从备份服务器上同步Web文件,从而实现恢复.实验结果表明,该方法可保护被篡改页面不被访问,具备较好的快速恢复性能.  相似文献   

5.
数据挖掘在Web智能化中应用研究   总被引:3,自引:9,他引:3  
分析了Web信息的特点和目前开发利用的局限,提出在Web上采用数据挖掘技术即Web挖掘,促进web智能化的观点。全面阐述了Web挖掘在Web智能化中的几个重要应用。指出Web挖掘是Web技术中一个重要的研究领域,是发现蕴藏在web上知识、区分权威链接、理解用户访问模式和网页语义结构的关键,它使充分利用Web大量的真正有价值的信息成为可能,为智能化Web奠定了基础。  相似文献   

6.
基于Web服务统一检索系统的设计   总被引:3,自引:0,他引:3  
通过分析目前数字图书馆统一检索方法,利用Web Services技术,对传统异构数据源集成方法Mediator/WrapPer进行改进,提出一个基于Web Services统一检索方案,以Web服务注册机制代替虚拟视图,在包装器上增加web服务封装及发布功能,构建资源透明访问框架,实现对分布式异构数字图书馆资源的统一检索.  相似文献   

7.
为提高具有百万个节点以上的大规模图处理效率,通过研究大规模图和分布式框架Hadoop,提出了GDH大规模图直径算法。算法通过每次计算出半径相同的图节点,直到最后一次迭代求出所有节点的半径,然后用节点半径之和除以节点数算出大规模图直径。算法的时空复杂度不大,并且与经典的直径算法相比,GDH算法的效率高些。经测试雅虎网站和脸谱网站的网页数据,发现该算法可清晰地分析Web图的网页节点和社交图的人际关系。  相似文献   

8.
为了改变C/S模式虚拟化管理系统消耗系统资源多、管理方式不够灵活等缺点,设计并实现了B/S架构的虚拟化管理系统.该系统以web服务器取代管理中心节点,实现了网页形式的虚拟化管理.其系统架构为:进行虚拟化管理的J2EE工程放在web服务器上,用户通过访问web服务器提供的管理界面进行操作,相应操作行为和参数传递给web服务器后,web服务器将它们封装为xml格式配置文件,传递给目标服务器,目标服务器执行完相应指令后再将结果返回给web服务器,web服务器再以网页形式返回给用户.测试结果表明,该系统能够降低系统能耗,提高管理方式的灵活性.  相似文献   

9.
Deep Web数据集成中的实体识别方法   总被引:3,自引:0,他引:3  
互联网上存在着大量可访问的Web数据库,不同web数据库之间存在着内容上的重叠.来自不同web数据库的记录虽然在网页上的表现形式不同,但是可能描述的是同一实体.因此实体识别是Deep web数据集成中数据合并过程里一个必不可少的环节,而且是一个很具有挑战性的工作.对该问题进行了深入的探讨,提出了一种新颖的方法自动完成实体识别,该方法克服了传统的实体识别工作以模式匹配为前提的弊端,并且与领域无关.实验表明,该方法在Deep web环境下可以达到相当高的准确性.  相似文献   

10.
蒲兴彦  赵媛 《微机发展》2007,17(12):40-43
SOA架构使得下一代软件系统具有分布式、面向服务和动态配置和部署的特点,这种软件架构引起了Internet从传统的eyeball web到transactional web的发展趋势。但是Web浏览器在功能上过于单一,缺乏离线操作和对相关应用程序的API支持,从而人们开始研究和开发比Web浏览器功能更为丰富的胖客户端。文中提出了一种客户端自主更新与适配远程服务接口的智能客户端(Smart Client)框架。该框架在本地维护了一个服务连接池,这使得客户端对常用服务的绑定和访问在一定程度上可以不通过UDDI或LDAP自行完成,这样降低了客户端访问UDDI或LDAP的开销,减轻了UD-DI或LDAP的负载,也提高了对常用服务的访问效率。  相似文献   

11.
网络机器人是搜索引擎中的核心部分,其首要步骤是获取页面内容来分析和追踪其包含的链接,以便搜索更多的网页.出于某些安全和商业因素,有些网站的相关内容必须要在有效用户登录后才可以查看,所以其相关页面的下载,首先需要通过身份验证.这就需要使用HTTP用户认证机制来判别用户身份,本文主要论述了怎么样用C#来实现通过HTTP用户认证实现页面下载.  相似文献   

12.
深层网技术是获取隐藏在以表单为特征的网络数据库检索入口后的数据页面的提取技术,解决了通用搜索引擎不能有效索引深层网网页的问题。专利数据是一类重要的深层网数据资源,对其进行提取、挖掘具有重要意义。本文利用深层网技术开发了一个专利检索系统,实现了对中国和美国专利数据的本地检索、提取和下载,以及针对中国专利的法律状态检索。该软件支持专利的批量下载及文件管理,并根据中国和美国专利显示为多个单页TIFF格式图片不利于本地管理和浏览的特点,开发了实用性较强的TIFF格式图片多页合并和通用PDF格式转换功能。该专利检索系统采用面向用户的界面设计和功能开发,具有简单、易用的特点。  相似文献   

13.
将数据挖掘技术和网络优化管理相结合,解决网络拥塞问题。该文应用Web预取技术,面向常见的纵向结构事务数据库,提出一种改进的关联规则挖掘算法实现Web页面预取,进而缩短页面下载时延。  相似文献   

14.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

15.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

16.
王斌 《计算机仿真》2004,21(5):95-99
近些年对internet的使用提供了获取大量信息的方法。但是,在单个网页中或者多个网页间缺少信息结构,成为获取网络数据的障碍。因此为了有效地搜索网络信息,迫切需要结构化网页有效的管理方法。该文提出的结构化网页的管理方法基于以下两个方面:第一步把HTML转化为XML,第二步建立导航层次结构。同时也学习如何用结构化的网页管理方法进行有效的数据查询,用户可以按照网站的导航层次浏览整个网站,包括互联的网页或者内部的网页,并且可以搜索感兴趣的信息。  相似文献   

17.
ASP.NET下利用动态网页技术生成静态HTML页面的方法   总被引:1,自引:0,他引:1  
介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法.利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点.这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录.  相似文献   

18.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

19.
爬行虫算法设计与程序实现   总被引:8,自引:0,他引:8  
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式,权衡其利弊,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析,该程序下载的网页数的速度为188~242个网页/分和41.92~74.59KB/秒。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号