首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步的分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现像Google一样的搜索引擎。  相似文献   

2.
基于Java的网络蜘蛛系统的设计与实现   总被引:1,自引:0,他引:1  
讨论如何使用Java现抓取网络资源的网络蜘蛛。通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地,然后可以利用其他的分析工具对这些网络资源做进一步的分析。  相似文献   

3.
介绍了HTTP和网络蜘蛛的基本概念,并实现了一个基于HTTP的网络蜘蛛程序来完成网页抓取.  相似文献   

4.
基于自动分类的网页机器人   总被引:2,自引:0,他引:2  
康平波  王文杰 《计算机工程》2003,29(21):123-124,127
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。  相似文献   

5.
本文介绍一个Web抓取器的实现。Web抓取器能够根据用户输入的URL和一定的约束条件自动地搜索Web上的超文本文档,建立URL索引,根据该索引有选择的下载Web资源,同时保持了原有的链接关系。本文实现了一种Web遍历过程,并根据遍历结果抓取文档,从而完成对指定URL抓取文本。  相似文献   

6.
吕强  郭蕾 《微机发展》2001,11(1):32-35
本文介绍一个Web抓取器的实现。Web抓取器能够根据用户输入的URL和一定的约束条件自动地搜索Web上的超文本文档,建立了URL索引,根据该索引有选择的下载Web资源,同时保持了原有的链接关系,本文实现了一个种Web遍历过程,并根据遍历结果抓取文档,从而完成对指定URL抓取文本。  相似文献   

7.
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高.  相似文献   

8.
Win32 API支持抢先式多线程网络,SPIDER工程(程序)是一个如何用抢先式多线程技术实现在网上用网络蜘蛛/机器人聚集信息的程序。该工程产生一个象蜘蛛一样行动的程序,该程序为断开的URL链接检查WEB站点。本工程能用作收集、索引信息的模板,该模板将这些信息存入到可以用于查询的数据库文件中。  相似文献   

9.
Deep Web中相当一部分内容因为动态网页存在而不能进行有效抓取。为此,设计并实现一种基于Web自动化测试工具——WatiJ的Deep Web网络蜘蛛。阐述利用WatiJ实现用户提交查询表单、循环点击翻页按钮等拟人交互方式的原理,通过实例给出动态网页抓取的关键步骤。实验结果表明,该蜘蛛是针对授权数据源进行动态网页抓取的一种有效解决方案。  相似文献   

10.
网络蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
陈瑜芳  何克右 《现代计算机》2009,(11):141-144,148
从网络蜘蛛的介绍出发,阐述网络蜘蛛的搜索策略以及相关算法,并介绍网络蜘蛛MySipder的具体设计与实现.包括网页解析、重复链接分析、DNS解析、网络通信等内容。该系统经实际运行,效果良好,给出有待进一步改进的地方。  相似文献   

11.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

12.
针对日益突出的网页访问问题,设计了一种新型分布式Web Spider。该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力。实验结果表明该分布式Web Spider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能。  相似文献   

13.
针对日益突出的网页访问问题,设计了一种新型分布式Web Spider.该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力.实验结果表明该分布式Web Spider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能.  相似文献   

14.
在云计算的大环境下,保护服务器端的Web应用安全变得更加重要。weh应用扫描作为预先发现安全问题的重要手段,现已获得广泛的重视。文章提出,对Web应用扫描的研究离不开对网络爬虫技术的研究,网络爬虫能力直接决定了Web应用漏洞扫描的检测覆盖面,文章主要从URL的关系出发来介绍weh应用扫描中使用的网络爬虫技术。  相似文献   

15.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

16.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

17.
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息.由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败.鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑.  相似文献   

18.
李大学  唐欢亮 《微计算机信息》2007,23(27):171-172,250
从网络广告情报需求的角度出发,利用针对网络广告的搜索引擎技术,设计了一种独立的、第三方的网络广告监测系统。该系统通过网络蜘蛛及时在大型网站上搜集在线广告活动数据进行加工处理,获得广告元数据,以分析报表形式提供给用户作情报分析,最后讨论了该系统的优缺点。  相似文献   

19.
基于Apache的动态Web内容缓存模块的实现   总被引:2,自引:1,他引:1  
Web提供了访问远程信息资源便捷的方式,衡量Web服务质量的一个重要指标就是检索和获取信息所花费的时间。通过缓存服务器产生的动态内容可以避免对数据库重复的查询,减少用户对原始资源的访问密度,从而提高服务器的响应时间。文章介绍了Web服务器动态内容缓存模块的概念,优点,原理以及具体模块的实现流程。  相似文献   

20.
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能.网页抓取器可以分为网络层和应用层,而网络层是关键.基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号