共查询到20条相似文献,搜索用时 62 毫秒
1.
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性. 相似文献
2.
3.
4.
5.
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。 相似文献
6.
在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ‐MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。 相似文献
7.
针对分布式多核节点系统的负载均衡难以取得最优解的问题,提出了一种基于改进极值优化的负载均衡方法.该方法通过节点的CPU占用率发现负载不均衡情况,然后用一个衡量模型估计计算与通信开销使改进的极值优化方法能够实现集群的负载均衡.仿真与实验结果表明该算法能够提高分布式集群的计算效率,是一种理想的负载均衡算法. 相似文献
8.
9.
开源云计算平台Openstack的云存储服务使用普通硬件构建的服务器集群为PB级别数据提供冗余的、高可靠的、可拓展的数据存储。针对集群中一部分节点访问过热而另一部分节点资源利用不充分的情况,对核心模块Swift中最重要的组件Ring中用到的一致性哈希算法进行改进。实验结果表明,该算法能在最大程度兼顾负载均衡的同时提高存储资源的利用率,既考虑了集群中各节点的处理能力,同时也兼顾了当前负载,提高了集群系统的整体性能。 相似文献
10.
11.
12.
ZENG Xiao-yun 《数字社区&智能家居》2008,(35)
Chord是一种比较有效的P2P路由算法,它能够快速地查找到该资源的位置,但是当节点能力差异较大时会影响网络的稳定性;Chord环上的节点ID与实际物理地址不一致会造成信息的延迟现象;混合式的P2P能够较好的管理能力较差的节点,但是查询具有盲目性。该文通过分析它们两者的优缺点提出了基于混合结构的Chord系统,在一定程度上解决了传统Chord的稳定性、绕路问题和混合P2P结构的查询效率问题。 相似文献
13.
14.
对等网信息检索的研究现状与展望 总被引:7,自引:0,他引:7
随着对等网(P2P)研完的进一步深入以及P2P网络中Peer结点和共享文件的进一步增多,如何在非集中式的P2P网络中发现所需要的文件已经成为P2P从研究走向实用的关键所在。该文首先提出了P2P挖掘的概念,然后指出P2P信息检索作为P2P挖掘中的一部分,已经成为P2P研究的一个热点。接下来提出了P2P网络的路由、搜索、挖掘的框架模型,指明了该领域研究的框架。然后分层综述了P2P信息检索的进展状况,对各种检索方法做了深入分析。并指出了它们各自的优缺点和应用局限性,最后对今后的P2P信息检索领域的发展方向进行了展望。 相似文献
15.
随着数据规模的增长以及网络技术的发展,对等网络(P2P)作为一种分布式信息共享与搜索的平台引起了越来越广泛的关注。基于对等网络高度动态、高度分散、扩展性强等特点,P2P上的skyline计算方法不仅需要满足集中式skyline计算方法的各种要求,还需要考虑减小网络通讯量、减少平均节点访问数、保持负载平衡等。文中对这个发展领域的最新技术进行了研究,并且描述了分布式skyline方法的目的和主要原理,概括了适用于P2P环境中的现有方法,并进行了性能比较分析。最后,给出了P2P环境skyline计算的未来发展方向。 相似文献
16.
17.
18.
19.