首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
许笑  张伟哲  张宏莉  方滨兴 《软件学报》2010,21(5):1067-1082
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结.  相似文献   

2.
广域网分布式Web 爬虫   总被引:5,自引:0,他引:5  
许笑  张伟哲  张宏莉  方滨兴 《软件学报》2010,21(4):1067-1082
分析了广域网分布式Web 爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web 爬虫的3 个核心 问题:Web 划分、Agent 协同和Agent 部署.围绕这3 个问题,对目前学术界和商业界出现的多种实现方案和策略进 行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web 爬虫的评价模型.最后,对未来 的研究方向进行了总结.  相似文献   

3.
为了改善网络机器人的爬行性能以及提高系统体系结构的通用性,提出了基于Web Service的新型分布式网络机器人体系架构.分析了分布式网络机器人软件中的关键数据操作,并将这些功能封装在Web Service中,基于Web向网络机器人客户结点提供统一的数据服务,降低了网络机器人爬行客户端对网络环境的依赖性.设计了分布式爬行所需的均衡负载、URL队列操纵和网页消重等算法,实现了分布式网络机器人软件原型.实验结果表明,该原型的性能明显优于单机模式下的网络爬行,且网页消重、均衡负载算法是可行的.  相似文献   

4.
从介绍Web挖掘与数据挖掘的差异入手, 分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向, 在深入了解Web爬虫的原理及其功能的基础上, 提出一个现代网站通用的挖掘模型, 并利用该模型设计一种网络爬虫. 经实例证明, 该爬虫能高效爬取更多的各种页面数据.  相似文献   

5.
分布式实时网络监测系统的设计与实现   总被引:4,自引:0,他引:4  
首先讨论了基于Java和Web的网络管理模式的特点,然后提出了一种基于Java和Web的分布式实时网络监测系统(WebNMS)的设计及其实现方案,并着重阐述了该系统的体系结构和设计实现中的一些关键要点。  相似文献   

6.
近年来,PLM(Product Lifecycle Management)产品生命周期在公司中越来越被重视,它集成了产品相关的人力、流程、信息等整个生命周期,支持产品创建、管理、分发一系列解决方案.但引入的PLM系统平台不支持查询导出及任务提醒功能,提取整合数据成为了工作痛点.Scrapy是基于Python开发的一个快...  相似文献   

7.
凌咏红  黄强 《福建电脑》2007,(10):139-139,102
为了解决不同省市工商行政管理局之间跨平台、跨地域的企业信息查询业务需求,整合各省市工商行政管理局已有信息系统.本文提出了基于SOA架构和Web Service技术的解决方案.并结合该系统的设计与实现,探讨了SOA架构在解决分布式异构集成应用中的灵活性.  相似文献   

8.
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.  相似文献   

9.
伴随数字化、网络化的快速发展,高校内涌现出众多的Web系统,这些Web系统参差不齐,安全性、易用性、可靠性等无法得到保障。把LAMP架构与LNMP架构各自的优点结合在一起形成新的网站服务器架构LNMPA,分析了该架构的特点及优势。采用基于MVC设计模式的ThinkPHP框架设计并实现了一套通用Web系统,该系统具备成本低、扩展灵活、性能稳定、数据安全、抗并发能力强等显著特点。  相似文献   

10.
一种Deep Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.  相似文献   

11.
提出了一提出了一个基于CORBA的分布式Web挖掘系—DWMBC,它采用基于Web的管理模式,利用CORBA进行分布式处理。将分布式信息处理和Web挖掘有效地结合起来,具有跨平台、较好的安全性和可扩展性。另外,利用JAVA技术,它还能满足一些挖掘结果实时表示的要求。  相似文献   

12.
针对现有搜索引擎技术的不足,提出一种针对中、小型网站的实时监控的分布式搜索网格模型,利用网格中空闲的计算资源进行网络信息的实时监控,并使用Agent思想在JATLite平台实现该模型.  相似文献   

13.
分析了网上信息报送的特点,介绍了基于Web的网上直报系统的设计与实现,同时对系统的开发模式、框架、功能模块和主要的关键技术进行了研究.  相似文献   

14.
Web服务搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
随着开放的Web服务数量的逐渐递增,全面而有效地获取散落于Internet上的这类Web服务并进行管理就成为一个十分重要的问题。针对该问题,设计与实现了一个Web服务搜索引擎WSSE(Web Services Search Engine)。它不断爬行现有Web站点以搜索Web服务,并对搜集到的Web服务进行集中式管理,最后采用开源的Lucene对搜索到的Web服务建立索引,提高了Web服务的检索效率。  相似文献   

15.
将语义Web技术应用于Blog系统的构建,我们设计并实现了一个称为“WOW”的基于Web本体的Blog原型系统。该系统不仅实现了Blog的常用功能,而且实现了对Weblog条目的语义查询。本文介绍了WOW系统的分析、设计及实现,着重介绍了Web本体技术在语义Blog系统中所起到的作用。  相似文献   

16.
传统基于C/S模式的Web搜索方法对网络带宽和网络通畅性的要求都比较高,因此在当今互联网的海量数据中的检索效率比较低。在分析移动Agent技术特点的基础上,提出一种基于移动Agent的分布式Web搜索模型。该模型根据中文信息搜索的特殊性,将移动Agent技术与分类算法相结合,在搜索过程中引入了用户输入信息的预处理过程来进行信息分类,然后根据分类结果形成基于用户兴趣度的移动Agent搜索路径选择策略以及并发方法,由此来提高Web搜索的效率。详细介绍框架的组成和所采用的关键技术,并通过一个移动Agent的开发平台——Aglet平台对模型进行实现和实验。实验结果表明,采用该模型进行Web检索,比传统的C/S检索方式减少50%以上的搜索时间,而在各资源服务器存储的文件资源类别和资源数量差异较大情况下的搜索效率比非并发的其他移动Agent搜索模型搜索时间要减少70%以上。  相似文献   

17.
基于Web的脑电数据库系统的设计与实现   总被引:7,自引:0,他引:7  
脑电图是脑疾病治疗和脑科学研究中的重要工具,因此在Internet上共享脑电数据对于医疗人员和脑科学研究人员是一件有意义的事情。本文介绍了一种基于Web的脑电数据库系统的设计与实现。该系统建立了一个合理而有效的脑电数据共享平台,使得医疗和科研人员有一个可用且可靠的脑电数据来源。  相似文献   

18.
介绍当前流行的Web应用框架及其在状态维护上的不足,提出一种新的上下文.在此基础上设计了基于向导的Web应用框架并给出Java平台下的参考实现,通过实例表明细粒度的上下文管理机制很好地满足了实际应用中的需求.  相似文献   

19.
一种新的主题网络爬虫爬行策略   总被引:1,自引:0,他引:1  
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对二次爬行过程进行改进。在传统的主题网络爬虫流程中增加一份经验树,将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的经验,实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号