首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

2.
3.
分布式多主题网络爬虫系统的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
白鹤  汤迪斌  王劲林 《计算机工程》2009,35(19):13-16,1
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。  相似文献   

4.
分布式PACS中DICOM图像存取服务的设计与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
分布式PACS相对于基于DICOM网络的传统PACS在系统结构和性能上有较大改进,但DICOM标准的专业性和复杂性严重阻碍了分布式PACS性能的提升。DICOM图像存取服务屏蔽了底层DICOM通讯协议和数据结构的复杂性,并通过为分布式PACS中的上层服务和外部应用提供一套IDL接口和访问机制来完成对DICOM图像文件中各类数据的访问,较大地提高了分布式PACS系统的开放性和互联互操作性。  相似文献   

5.
刘冰  赵宏 《微型计算机》1993,13(5):25-29
本文提出了支持多媒体数据存取的执程处理的原型机制,探讨了面向多媒体数据的,在分布环境下保证原子性和一致性机制的设计和实现中的一些问题,并给出具体实现实例。  相似文献   

6.
互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位。目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题。论文利用对等式架构的爬行器既是任务的消费者又是任务的生产者,提出了任务尽量在本地执行的优化方向。基于双缓冲技术实现的大粒度任务动态负载均衡策略,能有效地降低通信频次,基于高速缓存原理的URL判重方案,以“空间换时间”的方式,有效地提升爬虫URL判重性能。实验结果表明,该策略具有良好的扩展性、鲁棒性,能使分布式系统的性能优势得到更为充分的发挥。  相似文献   

7.
8.
《软件》2017,(10):83-87
随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。  相似文献   

9.
10.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

11.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

12.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

13.
分布式Web信息采集系统的研究与设计   总被引:6,自引:0,他引:6  
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。  相似文献   

14.
化学主题网络爬虫的设计和实现   总被引:1,自引:0,他引:1  
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。  相似文献   

15.
一种通用Web信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
吴丽辉  王斌  余智华 《计算机工程》2005,31(3):123-124,194
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。  相似文献   

16.
基于HTMLParser和HttpClient的网络爬虫原理与实现   总被引:2,自引:0,他引:2  
张亮 《电脑编程技巧与维护》2011,(20):94+103-94,103
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用.  相似文献   

17.
一种基于Web浏览器的分布式应用系统的构造方法   总被引:3,自引:0,他引:3  
文章提出了一种利用Web浏览器插入程序(Plug-in)构造紧耦合的分布式应用系统的方法.该 方法适合于开发在因特网上或企业网内部运行的以数据处理为主的分布式应用系统.它充分 利用Web浏览器的功能,使得用户可以利用本地结点计算资源,方便地访问并加工远程结点或 本地结点的数据.文章通过举例说明了构造这类系统的方法.  相似文献   

18.
针对互联网信息急剧增多,为了改善网络爬虫的爬行性能和提高爬虫程序的通用性,分析了网络爬虫的原理与架构,设计实现了一种高速多线程网络爬虫程序。该爬虫程序采用多个线程并行处理网页,采用宽度优先和深度优先结合的方式来控制网页爬取深度。实验证明该爬虫程序减少了网页下载过程中的平均等待时间,具有较好的性能。  相似文献   

19.
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号