共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
一种Deep Web爬虫的设计与实现 总被引:1,自引:0,他引:1
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的. 相似文献
3.
因特网信息的迅猛增长使搜索引擎垂直化成为发展趋势。本文提出基于概念空间的主题爬虫,构遣了一个快速、有效的主题采集系统。实验结果表明,这种方法具有较高的准确率和召回率。 相似文献
4.
深入解析Web主题爬虫的关键性原理 总被引:1,自引:0,他引:1
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。 相似文献
5.
6.
表单元素是信息系统中最常见的元素,并且表单元素与信息系统中的业务具有很高的相关性。传统的表单开发方法是将定制好的表单以硬编码的方式固化在系统中,这种方式导致表单维护成本相对较高。提出一种基于Web的表单可视化定制方式,对其可视化定制原理、方法和实现过程进行研究。 相似文献
7.
8.
描述了基于Web的工作流系统中的表单定义以及处理的规则。基于这些规则,用户可以自由定制应用在Web上的、基于HTML的表单,并灵活地控制表单的显示、数据项之间的运算以及工作流的处理逻辑。通过不同的规则组合,可以实现一系列复杂的功能,完全能够满足多分支、多路径的工作流系统对表单定义处理灵活性的要求。实践表明,文中提出的规则能够增强工作流系统的灵活性与可扩展性,可对构建功能更强大的办公自动化系统提供有力支持。 相似文献
9.
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。 相似文献
10.
基于爬虫的XSS漏洞检测工具设计与实现 总被引:4,自引:2,他引:2
通过对XSS漏洞的研究,剖析其产生、利用的方式,在此基础上针对XSS漏洞的检测机制进行进一步的分析和完善。结合网络爬虫的技术,研究设计并实现了一款XSS漏洞的检测工具(XSS-Scan),并与当前比较流行的一些软件做了分析比较,证明利用该工具可以对Web网站进行安全审计,检测其是否存在XSS漏洞。 相似文献
11.
跨站脚本(Cross Site Scripting,简称XSS)是Web应用程序中常见的一种安全漏洞,它允许恶意的Web用户将代码植入到提供给其他用户使用的页面中,从而进行XSS攻击。在分析XSS存在形式、攻击过程和攻击原理的基础上,提出了一种基于网络爬虫的XSS漏洞检测方法,通过实验验证了其有效性。 相似文献
12.
13.
在网站的建设与维护中,为了提升服务器效率,加强安全保密性等原因需要区分普通用户和网络爬虫程序。但是一些不完善或恶意的设计使得针对爬虫程序的检测变得困难,这些爬虫程序不仅加重网站的负担,也危害了网络的安全。为了解决这一问题,本文提出一种利用行为模式进行检测的技术,采用隐马尔科夫模型描述行为模式,并使用Matlab仿真实现高精度的检测效果。结果表明,利用隐马尔科夫模型的检测技术可以实现高精确度和低错误率的网络爬虫检测。
相似文献
14.
李俊丽 《计算机与数字工程》2015,43(5)
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能. 相似文献
15.
16.
Web技术是采用HTTP或HTTPS协议对外提供服务的应用程序,Web应用也逐渐成为软件开发的主流之一,但Web应用中存在的各种安全漏洞也逐渐暴露出来,如SQL注入、XSS漏洞,给人们带来巨大的经济损失.为解决Web网站安全问题,文章通过对Web常用漏洞如SQL注入和XSS的研究,提出了一种新的漏洞检测方法,一种基于漏洞规则库、使用网络爬虫检测SQL注入和XSS的技术.网络爬虫使用HTTP协议和URL链接来遍历获取网页信息,通过得到的网页链接,并逐步读取漏洞规则库里的规则,构造成可检测出漏洞的链接形式,自动对得到的网页链接发起GET请求以及POST请求,这个过程一直重复,直到规则库里的漏洞库全部读取构造完毕,然后继续使用网络爬虫和正则表达式获取网页信息,重复上述过程,这样便实现了检测SQL注入和XSS漏洞的目的.此方法丰富了Web漏洞检测的手段,增加了被检测网页的数量,同时涵盖了HTTP GET和HTTP POST两种请求方式,最后通过实验验证了利用此技术对Web网站进行安全检测的可行性,能够准确检测网站是否含有SQL注入和XSS漏洞. 相似文献
17.
基于Heritrix的商品信息搜索的网络爬虫系统的设计 总被引:1,自引:0,他引:1
袁小洁 《电脑编程技巧与维护》2012,(22):74+81-74,81
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。 相似文献
18.