共查询到20条相似文献,搜索用时 93 毫秒
1.
基于网络爬虫与页面代码行为的XSS漏洞动态检测方法 总被引:1,自引:1,他引:0
XSS漏洞是攻击Web应用程序、获取用户隐私数据的常见漏洞.传统的XSS漏洞检测工具并没有对AJAX Web应用程序进行针对性的检测,在检测精度方面与实际情况存在巨大差距.针对这种情况,对AJAX技术下XSS漏洞的特点进行了分析,提出了一种基于网络爬虫与页面代码行为的动态检测方法.实验结果表明,提出的方法在节省人力、时间成本与漏洞检测方面有较好的表现. 相似文献
2.
以AJAX技术为代表的Web应用新技术的出现,赋予了JavaScript更加丰富的功能。但也导致更多的URL以数据形式存在于JavaScript代码中,给网络爬虫的URL提取带来了新的挑战。为了解决这一问题,在此提出了一种基于WebKit的网络爬虫,以WebKit作为爬虫的前端来解析并执行JavaScript。一是实现JavaScript对网页DOM的修改,从而将存在于此类代码中的URL转换成HTML形式并以静态分析方法来提取;二是定位JavaScript页面导航的代码并且劫持输入导航方法及对象的变量以提取变量中的URL。这充分降低了客户端脚本给爬虫带来的障碍,从而更好地提取网页中的URL。 相似文献
3.
本文主要研究网络爬虫的设计及相关实现技术。基于Python设计及实现一个网络爬虫,最终完成对目标气象网站指定信息数据的提取和存储;对主流反爬虫技术进行研究,并对网络爬虫和反爬虫的关系进行了理论说明和发展展望。 相似文献
4.
白天瑰 《电子技术与软件工程》2022,(21):251-254
本文简单介绍了网络爬虫技术,论述了基于网络爬虫技术的大数据采集系统设计目标,探究了基于网络爬虫技术的大数据采集系统设计结构,并对基于网络爬虫技术的大数据采集系统设计实践进行了进一步探究,希望为基于网络爬虫技术的大数据采集系统设计提供一些参考。 相似文献
5.
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。 相似文献
6.
本文首先阐述了与网络爬虫有关的研究工作,然后分析基于模板化网络爬虫的研究思路和实现过程以及与传统网络爬虫的区别,具体说明了模板的构造方法与使用过程.最后对研究成果进行了展示.通过对三个图书网站进行了相对于该网站的模板以及程序的编写,这三个网站分别是当当网、china-pub以及国家图书馆.实现了基于模板化的网络爬虫技术,使得程序能够自动提取所需要的信息,并且完成了预期查询速度提高的目标. 相似文献
7.
8.
介绍了网站信息拨测系统,阐述了网络爬虫的工作原理、搜索策略以及在网站信息拨测系统中的作用.分析了网络爬虫的主要特点和存在问题,并对网络爬虫将来的发展进行了展望. 相似文献
9.
10.
针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、MongoDB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫.最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略. 相似文献
11.
本文深入研究了在身份认证中维持用户状态信息的重要对象Session的工作原理,并依据现有的理论基础,从Web应用程序中身份认证面临的实际问题出发,提出了非正式注销存在的安全性问题。论文结合Session的工作过程和利用浏览器的缓存技术,提出具有实用性的解决方案,使Session在Web身份认证中的应用更加合理、有效,增加了身份认证的安全性。为了验证结论的有效性,将本文提出的解决方案应用于基于Web的网络考试系统中,证明了这种方案的适用性,达到本文的设计目的。 相似文献
12.
面向服务的体系结构以及Web服务的出现,使集成遗留系统成为可能,文章将介绍如何综合利用Web服务和消息服务实现图纸二进制文件的实时跨平台分发. 相似文献
13.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域. 相似文献
14.
Struts提供了一个非常好的MVC框架,在Web应用开发中把界面和业务逻辑分离,提高了代码的可重用性和灵活性。介绍Struts概念和体系结构,阐述Struts的工作原理。然后介绍了高校开放式实验室系统各个功能模块以及整个系统基于Struts的开发流程。最后,通过一个应用示例,详细介绍Struts框架在系统开发中的应用。 相似文献
15.
Web数据挖掘已经成为数据挖掘研究领域的热点,尤其是在电子商务网站的设计和使用中。文章阐述了在电子商务中如何运用Web数据挖掘技术,为企业更有效地确认目标市场、改进决策、获得更大的竞争优势提供帮助,并提出了一种Web数据挖掘系统的设计方案和实现方式。同时,对k-means聚类算法进行了优劣分析,并提出通过改变初始聚类中心的选取规则来提高算法的运行效率以及计算结果的准确度。 相似文献
16.
基于网页分块的个性化信息采集的研究与设计 总被引:8,自引:0,他引:8
个性化Web信息采集是信息检索领域内一个将采集技术与过滤方法结合的新兴方向.也是信息处理技术中的一个研究热点。文章分析了个性化Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计了基于网页分块的个性化Web信息采集系统。 相似文献
17.
18.
自1999年我国实施政府上网工程以来,政府网站建设工作得到了快速发展,但从目前情况来看,基本还处于起步阶段,绝大部分政府网站尚停留在信息发布和信息查询水平上。本文从我国政府网站建设的现状出发,以公众使用为视角,对我国政府网站在服务品质方面存在的问题及其原因进行了分析,并提出了解决对策。 相似文献
19.
Web服务的动态组合中所面临的一个重要问题是不同Web服务之间的消息格式的异构,这使得服务组合的流程定义和服务的选择有了很大的耦合性,因而动态组合变得困难.本文分析了Web服务组合中消息传递的异构现象,提出了一种基于本体的异构消息自动匹配和转换方法.该方法将上游Web服务输出信息通过本体匹配的方式有效的提取出来,并根据对应操作转换为与当前Web服务的输入参数格式相匹配的形式.这样,简化了Web服务组合的过程定义,也能够支持Web服务的替换和过程的动态演化. 相似文献
20.
基于遗传算法的Web行为挖掘研究 总被引:3,自引:0,他引:3
针对在Web行为挖掘中,统计学挖掘算法难以发现潜在、先验性的知识,文章提出一种基于遗传算法的Web行为挖掘方法。其通过遗传进化、机器学习的方式,解决了Web行为挖掘中的用户聚类分析和关联分析问题.以适应Web自身,以及Web用户群体行为的发展,试验结果证明了它的可行性和先进性。 相似文献