首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
范纯龙  袁滨  余周华  徐蕾 《计算机应用》2010,30(7):1782-1784
网络爬虫作为一种网络资源获取程序,在被搜索引擎等领域广泛应用的同时,也带来隐私泄露、版权纠纷等诸多问题,因此需要检测和约束Spider的行为。总结了现有的Spider检测方法,介绍了陷阱技术在Spider检测中的应用现状,提出利用有结构的陷阱技术,构建Spider检测的网站模型和相应的检测算法,并对该方法的检测能力进行了分析和评价,最后在通过实验系统验证陷阱检测方法与人工分析结论相一致的基础上进一步分析了该检测结果的成因。  相似文献   

2.
一种Deep Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.  相似文献   

3.
徐诗亮 《福建电脑》2008,24(10):125-125
因特网信息的迅猛增长使搜索引擎垂直化成为发展趋势。本文提出基于概念空间的主题爬虫,构遣了一个快速、有效的主题采集系统。实验结果表明,这种方法具有较高的准确率和召回率。  相似文献   

4.
深入解析Web主题爬虫的关键性原理   总被引:1,自引:0,他引:1  
王芳  陈海建 《微型电脑应用》2011,27(7):32-34,70
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。  相似文献   

5.
刘颖 《电脑学习》2009,(1):66-67
通过一个实例说明使用JSValidation验证框架进行Web表单校验的过程。  相似文献   

6.
表单元素是信息系统中最常见的元素,并且表单元素与信息系统中的业务具有很高的相关性。传统的表单开发方法是将定制好的表单以硬编码的方式固化在系统中,这种方式导致表单维护成本相对较高。提出一种基于Web的表单可视化定制方式,对其可视化定制原理、方法和实现过程进行研究。  相似文献   

7.
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。  相似文献   

8.
描述了基于Web的工作流系统中的表单定义以及处理的规则。基于这些规则,用户可以自由定制应用在Web上的、基于HTML的表单,并灵活地控制表单的显示、数据项之间的运算以及工作流的处理逻辑。通过不同的规则组合,可以实现一系列复杂的功能,完全能够满足多分支、多路径的工作流系统对表单定义处理灵活性的要求。实践表明,文中提出的规则能够增强工作流系统的灵活性与可扩展性,可对构建功能更强大的办公自动化系统提供有力支持。  相似文献   

9.
胡晟 《软件》2012,(7):145-147
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。  相似文献   

10.
基于爬虫的XSS漏洞检测工具设计与实现   总被引:4,自引:2,他引:2  
沈寿忠  张玉清 《计算机工程》2009,35(21):151-154
通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工具可以对Web网站进行安全审计,检测其是否存在XSS漏洞。  相似文献   

11.
跨站脚本(Cross Site Scripting,简称XSS)是Web应用程序中常见的一种安全漏洞,它允许恶意的Web用户将代码植入到提供给其他用户使用的页面中,从而进行XSS攻击。在分析XSS存在形式、攻击过程和攻击原理的基础上,提出了一种基于网络爬虫的XSS漏洞检测方法,通过实验验证了其有效性。  相似文献   

12.
王锋  王伟  张璟  罗作民 《计算机工程》2010,36(1):280-282
针对目前影响爬虫程序效率的诸多关键因素,在研究爬虫程序内部运行机理的基础上,进行架构优化,改进爬虫程序中的相关算法。在Linux网络环境下,通过对实现的爬虫程序运行进行检测,反馈出该解决方案和改进之处具有可行性,提高了页面抓取的效率和爬虫程序的整体性能。  相似文献   

13.
在网站的建设与维护中,为了提升服务器效率,加强安全保密性等原因需要区分普通用户和网络爬虫程序。但是一些不完善或恶意的设计使得针对爬虫程序的检测变得困难,这些爬虫程序不仅加重网站的负担,也危害了网络的安全。为了解决这一问题,本文提出一种利用行为模式进行检测的技术,采用隐马尔科夫模型描述行为模式,并使用Matlab仿真实现高精度的检测效果。结果表明,利用隐马尔科夫模型的检测技术可以实现高精确度和低错误率的网络爬虫检测。   相似文献   

14.
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.  相似文献   

15.
以农业环境为背景,在搜索引擎基础而又非常重要的部分——网络爬虫的基础上,提出了改进的爬虫设计,其中采用了主题相关性判断和网页选择器筛选的方法,并且通过建立对应的农产品词库,结果表明在农业领域的搜索相关性上有大幅度的提高。  相似文献   

16.
Web技术是采用HTTP或HTTPS协议对外提供服务的应用程序,Web应用也逐渐成为软件开发的主流之一,但Web应用中存在的各种安全漏洞也逐渐暴露出来,如SQL注入、XSS漏洞,给人们带来巨大的经济损失.为解决Web网站安全问题,文章通过对Web常用漏洞如SQL注入和XSS的研究,提出了一种新的漏洞检测方法,一种基于漏洞规则库、使用网络爬虫检测SQL注入和XSS的技术.网络爬虫使用HTTP协议和URL链接来遍历获取网页信息,通过得到的网页链接,并逐步读取漏洞规则库里的规则,构造成可检测出漏洞的链接形式,自动对得到的网页链接发起GET请求以及POST请求,这个过程一直重复,直到规则库里的漏洞库全部读取构造完毕,然后继续使用网络爬虫和正则表达式获取网页信息,重复上述过程,这样便实现了检测SQL注入和XSS漏洞的目的.此方法丰富了Web漏洞检测的手段,增加了被检测网页的数量,同时涵盖了HTTP GET和HTTP POST两种请求方式,最后通过实验验证了利用此技术对Web网站进行安全检测的可行性,能够准确检测网站是否含有SQL注入和XSS漏洞.  相似文献   

17.
基于Heritrix的商品信息搜索的网络爬虫系统的设计   总被引:1,自引:0,他引:1  
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。  相似文献   

18.
刘明洁  李珅  梁毅 《软件》2020,(5):57-60
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。  相似文献   

19.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号