首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

2.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

3.
P2P分布式存储系统   总被引:1,自引:0,他引:1  
设计了一个基于P2P的分布式存储系统.该存储系统采用高可扩展的P2P体系结构,将大量分散的节点组织成一个逻辑网络,充分利用原先被忽视的端系统资源,构建大规模分布式存储系统.该存储系统采用高效的结构化P2P路由机制、动态自适应的副本管理、信任机制和激励机制为用户提供高效、可靠的分布式存储服务.  相似文献   

4.
基于XML-RPC技术的分布式教育资源库系统   总被引:5,自引:0,他引:5  
针对目前教育资源分布分散,无法被有效地利用和共享等问题,提出了分布式教育资源库系统的设计思想,系统为多个分布式资源库节点建立统一的资源目录中心,采用XML-RPC技术解决资源目录中心和分布式资源库节点之间信息的同步问题,有效地实现了教育资源的共建共享。  相似文献   

5.
软件问答     
1有关.NET架构问题Q最近在安装一款软件时,系统提示需要Microsoft, NET Framework才能继续安装,并且自动开始下载Microsoft.NET Framework,请问这是什么软件?有什么用? A.NET是微软继DNA架构之后提出的分布式软件应用架构,发展方向是要构建一个使用因特网开放标准的应用程序开发与执行的环境,使任何人从任何地方,在任何时间使用任何装置都能存取因特网上的资源  相似文献   

6.
在分布式OA系统中,数据资源的分布会影响整个OA系统的效率。为了能够合理进行数据资源分布,提高OA系统的效率,提出了一种基于分布式数据资源的分布模型及算法,该算法给出了可减少网络流量、降低整个分布式系统开销的数据分布方案,由此提高OA系统的整体性能,使之更能适应OA应用需要。  相似文献   

7.
为了改善网络机器人的爬行性能以及提高系统体系结构的通用性,提出了基于Web Service的新型分布式网络机器人体系架构.分析了分布式网络机器人软件中的关键数据操作,并将这些功能封装在Web Service中,基于Web向网络机器人客户结点提供统一的数据服务,降低了网络机器人爬行客户端对网络环境的依赖性.设计了分布式爬行所需的均衡负载、URL队列操纵和网页消重等算法,实现了分布式网络机器人软件原型.实验结果表明,该原型的性能明显优于单机模式下的网络爬行,且网页消重、均衡负载算法是可行的.  相似文献   

8.
分布式多交互虚拟场景渲染的协同控制   总被引:1,自引:0,他引:1       下载免费PDF全文
针对分布式多交互虚拟现实系统场景渲染的协同控制问题,构建了基于分布式开放灵活的多交互虚拟现实系统结构,将协同交互技术集成到虚拟现实系统设计中,设计包含控制平台、网络服务平台和渲染平台的系统架构,提出了一种基于OGRE的分布式多交互实时协同渲染方法。完成了单个控制节点对应多个渲染节点时,多个渲染节点渲染场景的实时同步,以及多个控制节点在同一场景中的协同、交互。此研究成果应用于河北大学虚拟漫游交互控制平台,具有广阔应用的前景。  相似文献   

9.
《软件》2018,(3):127-129
随着互联网时代的快速发展,人民银行传统的集中式信息系统架构已不能完全适应对业务需求的快速响应、敏捷开发和迅速部署,为提高业务连续性保障和数据利用能力,采用多节点并行运行、数据分布存储、动态负载均衡的分布式架构势在必行。本文基于某人民银行省级数据中心建设的"支付清算业务大数据分析平台",介绍了如何利用现有开源技术搭建一个分布式大数据平台,同时,为分布式大数据架构在人民银行应用提供可参考的建设思路。  相似文献   

10.
目前大多数的Peer-to-Peer(P2P)系统只支持基于文件标识的搜索,用户不能根据文件的内容进行搜索.Top-k查询被广泛地应用于搜索引擎中,获得了巨大的成功.可是,由于P2P系统是一个动态的、分散的系统,在P2P环境下进行top-k查询是具有挑战性的.提出了一种在集中式P2P系统中的基于中心文档的层次化的top-k查询算法.首先,采用层次化的方法实现分布式的top-k查询,将结果的合并和排序分散到P2P网络中的各个节点上,充分利用了网络中的资源.其次,将节点返回的结果录入到中心文档中,然后确定其分数上限,对节点进行选择,提高了查询效率.  相似文献   

11.
一种基于智能体的Web文档预取模式   总被引:3,自引:2,他引:1  
文章深入分析了用户对Internet资源的访问模式和web文档自身的更新模式,并提出了一个新的基于智能体的web文档预取系统结构。在这个系统结构基础上,通过用户存取日志及各种算法,发现特定用户感兴趣的主题,实现对兴趣文档的主动预取,从而提高分布式信息系统上信息的获取效率。  相似文献   

12.
基于相关术语集的搜索引擎选择   总被引:1,自引:0,他引:1  
欧洁 《计算机科学》2003,30(7):56-59
1 引言 Web从1991年出现以来,已经发展成为一个巨大的全球化信息空间,而且其信息容量仍在以指数形式飞速增长。面对海量Web信息资源,如何有效地检索Web信息,以帮助用户从大量文档信息集合中找到对给定查询请求有用的文档子集,也就成为一项重要而迫切的研究课题。  相似文献   

13.
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息.由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败.鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑.  相似文献   

14.
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.  相似文献   

15.
随着Internet的迅猛发展.网络用户数量骤增,然而由于网络和硬件资源的局限性,使得传统的C\S与B\S架构下的在线教育资源系统不堪重负,文中提出一种基于SOA(Service Oriented Architecture)的分布式处理的架构模式MIX\S,充分并合理利用硬件和网络资源,动态地满足在线教育资源系统的用户规模需求。以程序设计竞赛系统为研究背景,提出分布式程序设计竞赛系统,并采用本体论的方法为系统建立一个信息完整和语义清晰的概念模型。  相似文献   

16.
分布式多主题网络爬虫系统的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
白鹤  汤迪斌  王劲林 《计算机工程》2009,35(19):13-16,1
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。  相似文献   

17.
The Web comprises of voluminous rich learning content.The volume of ever growing learning resources however leads to the problem of information overload.A large number of irrelevant search results generated from search engines based on keyword matching techniques further augment the problem.A learner in such a scenario needs semantically matched learning resources as the search results.Keeping in view the volume of content and significance of semantic knowledge,our paper proposes a multi-threaded semantic focused crawler(SFC) specially designed and implemented to crawl on the WWW for educational learning content.The proposed SFC utilizes domain ontology to expand a topic term and a set of seed URLs to initiate the crawl.The results obtained by multiple iterations of the crawl on various topics are shown and compared with the results obtained by executing an open source crawler on the similar dataset.The results are evaluated using Semantic Similarity,a vector space model based metric,and the harvest ratio.  相似文献   

18.
The mobile Internet provides mobile nodes with continuous access to the Internet resources. This type of service is guaranteed only if these mobile nodes are one-hop away from the edge of the Internet. Mobile ad hoc networks (MANET), however, enable multi-hop communication between mobile nodes. A more promising goal would be to connect MANET to the Internet, thus enabling mobile nodes to benefit from the multi-hop nature of MANET so they can to share access to the Internet resources with the stationary nodes. This paper aims to study a three-tier architecture to provide MANET nodes with multi-hop Internet connectivity, evaluate its performance through extensive experiments with respect to a set of decision parameters, and outline the lessons learned from these experiments.  相似文献   

19.
搜索引擎优化的作弊与防范   总被引:1,自引:0,他引:1  
随着信息技术的飞速发展,人们越来越多的通过搜索引擎获取信息。快速增长的互联网信息在提供丰富的资源的同时也催生了大量的搜索引擎作弊的行为。本文先是通过对搜索引擎优化的作弊手段进行分析进而提出防范作弊的几种方法。  相似文献   

20.
王行勇  戴丽  于建华 《计算机工程》2002,28(12):134-135,265
尽管通用搜索引擎已经被广泛使用,但它们筛选用户查询结果中无关结果的功能一直不能任人满意,因此有些搜索需要使用专题搜索引擎,文章提出了一种基于中文专题搜索引擎的查询路由架构,该架构为用户的查询寻找合适的专题搜索引擎路由,并找出最佳搜索引擎,除了描述构架外,其中使用到的查询扩展和聚类算法文章也一并给出。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号