首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.  相似文献   

2.
董禹龙  杨连贺  马欣 《计算机科学》2018,45(Z6):428-432
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。  相似文献   

3.
《计算机工程》2019,(11):62-67
传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理。针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略。分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多影响因素的非线性分布式爬虫节点运行时间模型。以该模型预测的各子节点运行时间的最小方差为负载均衡策略的目标函数,并利用带约束条件的改进粒子群优化算法求解目标函数,确定负载均衡的任务分配方案。实验结果表明,该负载均衡策略在满足爬虫节点高性能要求的前提下,能有效缩短分布式爬虫系统的运行时间。  相似文献   

4.
《软件》2017,(10):83-87
随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。  相似文献   

5.
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。  相似文献   

6.
在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ‐MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。  相似文献   

7.
谭鹤毅 《测控技术》2017,36(6):109-111
针对分布式多核节点系统的负载均衡难以取得最优解的问题,提出了一种基于改进极值优化的负载均衡方法.该方法通过节点的CPU占用率发现负载不均衡情况,然后用一个衡量模型估计计算与通信开销使改进的极值优化方法能够实现集群的负载均衡.仿真与实验结果表明该算法能够提高分布式集群的计算效率,是一种理想的负载均衡算法.  相似文献   

8.
《计算机工程》2017,(1):37-42
Storm分布式实时计算系统采用轮询调度算法达到任务均衡分配的目的,但Storm默认调度算法未考虑计算节点间的网络通信开销,可能造成topology处理时延高、集群吞吐量低等问题。为此,引入Storm topology热边的概念,通过减少网络传输的tuple数量,将热边关联的源executor和目标executor调度到同一工作节点执行,提升Storm集群的计算性能。实验结果表明,该调度算法能够有效降低Storm处理时延及集群节点间的通信量,提高系统吞吐量,并且有利于集群的负载均衡。  相似文献   

9.
开源云计算平台Openstack的云存储服务使用普通硬件构建的服务器集群为PB级别数据提供冗余的、高可靠的、可拓展的数据存储。针对集群中一部分节点访问过热而另一部分节点资源利用不充分的情况,对核心模块Swift中最重要的组件Ring中用到的一致性哈希算法进行改进。实验结果表明,该算法能在最大程度兼顾负载均衡的同时提高存储资源的利用率,既考虑了集群中各节点的处理能力,同时也兼顾了当前负载,提高了集群系统的整体性能。  相似文献   

10.
基于GNP算法的分布式爬虫调度策略*   总被引:2,自引:0,他引:2  
针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬虫节点,构建分布式搜索引擎,应用该调度策略进行实验,验证了系统性能有较大提高。  相似文献   

11.
12.
Chord是一种比较有效的P2P路由算法,它能够快速地查找到该资源的位置,但是当节点能力差异较大时会影响网络的稳定性;Chord环上的节点ID与实际物理地址不一致会造成信息的延迟现象;混合式的P2P能够较好的管理能力较差的节点,但是查询具有盲目性。该文通过分析它们两者的优缺点提出了基于混合结构的Chord系统,在一定程度上解决了传统Chord的稳定性、绕路问题和混合P2P结构的查询效率问题。  相似文献   

13.
结构化P2P网络拓扑匹配技术综述 *   总被引:4,自引:1,他引:3  
结构化P2P网络中由DHT(分布式哈希表)来决定网络中资源的映射位置,这种方式在系统的可扩展 性和资源的定位速度上都有了很大的提高。但是,在利用DHT构建覆盖网络时,并没有过多地考虑底层物理拓 扑结构,因而产生了逻辑拓扑与物理拓扑的失配问题,造成了很多不必要的路由,降低了资源定位的效率。针对 这种情况进行了大量的文献调研,对结构化P2P网络拓扑匹配现有的算法进行了介绍,分析了各种算法的优缺 点,并在现有算法的基础上进一步展开研究。  相似文献   

14.
对等网信息检索的研究现状与展望   总被引:7,自引:0,他引:7  
随着对等网(P2P)研完的进一步深入以及P2P网络中Peer结点和共享文件的进一步增多,如何在非集中式的P2P网络中发现所需要的文件已经成为P2P从研究走向实用的关键所在。该文首先提出了P2P挖掘的概念,然后指出P2P信息检索作为P2P挖掘中的一部分,已经成为P2P研究的一个热点。接下来提出了P2P网络的路由、搜索、挖掘的框架模型,指明了该领域研究的框架。然后分层综述了P2P信息检索的进展状况,对各种检索方法做了深入分析。并指出了它们各自的优缺点和应用局限性,最后对今后的P2P信息检索领域的发展方向进行了展望。  相似文献   

15.
孙志  孙雪姣 《计算机科学》2018,45(Z11):63-70
随着数据规模的增长以及网络技术的发展,对等网络(P2P)作为一种分布式信息共享与搜索的平台引起了越来越广泛的关注。基于对等网络高度动态、高度分散、扩展性强等特点,P2P上的skyline计算方法不仅需要满足集中式skyline计算方法的各种要求,还需要考虑减小网络通讯量、减少平均节点访问数、保持负载平衡等。文中对这个发展领域的最新技术进行了研究,并且描述了分布式skyline方法的目的和主要原理,概括了适用于P2P环境中的现有方法,并进行了性能比较分析。最后,给出了P2P环境skyline计算的未来发展方向。  相似文献   

16.
介绍什么是P2P以及在局域网中的危害,如何封堵P2P。  相似文献   

17.
用嵌入式微处理器通过继电器及互感器测控远端的用电设备,满足个性化设计要求,实现了智能供电.并把P2P技术和嵌入式网关相结合,拓展了嵌入式网关应用平台,使不同局域网内的测控节点实现点对点实时通信.  相似文献   

18.
P2P流媒体技术的诞生.解决了传统C/S流媒体服务的瓶颈问题.本文介绍了当前基于P2P技术的流媒体服务系统的现状,并在分析比对现有的P2P流媒体服务解决方案的基础上,提出了一种新的P2P流媒体服务系统方案,通过对模型的优化,使该系统可以达到更好的效率和健壮性.  相似文献   

19.
随着网络技术的不断发展,远程教育将终生学习变为现实.然而,在这个过程中还有许多需要解决的问题,其中最突出的是资源建设方面的问题.本文提出了一种基于P2P的网络通信模型,对此模型的关键技术进行了研究,并将该模型作为一个远程教育服务系统的通信支撑环境.实验表明,该模型具有很强的实用性.  相似文献   

20.
传统的基于SNMP的网络监视模型采取集中的数据采集方式,且各监视模块之间不能进行信息共享,导致了在复杂的网络环境下基于这种模型的网络监视工具不能及时、准确地反映网络的运行状态。在分析传统网络监视模型不足的基础上,提出了一种新的基于P2P的网络监视模型,并对模型的结构进行了讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号