首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
随着近年来互联网信息的爆炸式增长,通用网络爬虫成为人们获取信息的有效手段。但其查准率却无法保证。针对此问题,提出一种基于改进BM25算法和SVM算法的聚焦爬虫,用于解决通过网络爬虫的缺点。聚焦爬虫分为网页爬取模块、网页预处理模块和网页关联性评价模块三部分。网页爬取模块以URL种子集合为初始集合负责网页信息的爬取。网页预处理模块采用改进BM25算法提取网页信息的主题特征向量。网页关联性评价模块采用SVM算法对主题特征向量进行分类,获取和用户检索主题相关的网页信息。实验结果表明,本文的方法在网页抓取的查准率上都取得良好的效果。  相似文献   

2.
在网络文字、图像视频、音频数量日益增长的网络世界中,网络爬虫爬取结果变得越来越差,主要表现在爬取网页的精确率低、召回率低和重复率高等方面。为解决这些问题,结合市场匹配基本原理和网络爬虫的特点,提出一种基于市场匹配算法的多Agent智能爬虫系统。基于市场匹配算法,设计了多Agent智能爬虫系统,以雅虎一级目录12个主题为测试数据对网络爬虫爬取网页的精确率、召回率和重复率进行了分析。结果表明,与未使用市场匹配算法的系统相比较,基于市场匹配算法的多Agent智能爬虫系统的精确率提高了9%、召回率提高了8%、重复率降低了5%,其爬虫性能有较大改善。  相似文献   

3.
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同的是,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
  本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。  相似文献   

4.
针对传统爬虫方法存在搜索易陷入局部最优,且很少考虑结合历史爬行经验对爬行路径进行修正的缺陷,提出一种基于WL抽样的主题爬行方法。该方法分别使用向量空间模型(VSM)和PageRank算法对链接的相关性和重要性进行评价,采用区域竞争策略从具有主题相关或潜在价值的链接集合中选出目标链接。基于概率密度函数,WL抽样算法对侯选集中选出的目标链接进行抽样判断,根据历史统计经验指导爬虫的后续爬行,从而优化搜索路径。实验结果表明,提出的基于WL抽样的主题爬虫方法比其他主题爬虫方法能搜索到更多主题相关的网页,其爬准率和所有下载网页主题相关度的标准差具有明显优势。  相似文献   

5.
介绍了网络爬虫的基本步骤,完整介绍了使用Python语言,利用正则表达式爬取彩票网最新奖池数据的整个过程。  相似文献   

6.
在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中“概念”和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义理解方法、在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现、在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。  相似文献   

7.
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度.实验表明本文的优化技术可行.  相似文献   

8.
首先概述了搜索引擎的发展,再对搜索引擎发现技术进行介绍,选择其中一种算法即网页爬虫实现对某个网站关于网页信息的提取与存储,最后进行了总结与展望.  相似文献   

9.
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。  相似文献   

10.
11.
针对Web遭受跨站脚本攻击越来越严重的问题,设计了一个基于代理的客户端系统模型,并在网络中心实验室进行了实现,通过对实验结果的分析可知,该系统可以很好地自动检测映射XSS攻击和存储XSS攻击,并对这些攻击进行漏洞收集.  相似文献   

12.
分析了当前Web应用所面临的安全性问题以及重要性,同时分析了Web应用安全特性,给出了十大安全风险的描述并针对每一个安全风险给出了切实有效的防范措施与解决方案,包括注入式攻击、跨站点脚本攻击、错误的认证和会话管理、不安全的直接对象引用、跨站点伪造请求、不安全的配置管理、不安全的密码存储器、无法限制URL访问、薄弱的传输层保护、未验证的网址重定向.针对当前的各种Web应用安全的问题,给出了常见的安全技术及其描述.  相似文献   

13.
测量分析P2P网络拓扑特征是解决P2P网络优化和网络监管等问题的基础。提出了基于边过滤的增量式拓扑爬行策略,根据此策略设计并实现了分布式拓扑爬虫系统PPTV_Crawler,并从爬虫效率和数据完整性两方面分析了PPTV_Crawler的性能优势。使用该爬虫分析了PPTV网络拓扑的平均节点度与用户量关系,节点度分布特性以及小世界特性。实验结果表明,P2P网络拓扑特征与其协议版本和客户端行为密切相关,PPTV网络中的节点间连接性随用户规模的变化而改变,且成正比关系;节点度分布受用户规模影响,用户规模大的网络节点度分布比用户规模小的网络呈现更加明显的幂律分布特征;用户规模大和用户规模小的网络均呈现小世界特性,且小规模网络聚集性更高。作者提出的基于边过滤增量式拓扑爬行策略为研究基于P2P技术的复杂网络提供了有效方法。  相似文献   

14.
Web应用广泛普及的同时,也带来了大量的安全威胁。本文分析了常见Web攻击:跨站脚本攻击、Flash攻击、跨站伪造请求攻击、APT攻击、DDoS攻击,从安全威胁的产生原因、常见攻击手段出发,总结了攻击者经常利用的Web安全漏洞,并提出了相应的防御措施和方法,对提高Web安全具有重要的参考价值。  相似文献   

15.
Web应用常见注入式安全漏洞检测关键技术综述   总被引:6,自引:0,他引:6  
针对各种动态Web技术的应用和发展加剧了Web应用注入式恶意攻击防范难度的问题,围绕Web应用典型的SQL注入和XSS注入漏洞,综述了近年来提出的、适用于Web应用注入式漏洞检测的研究进展。介绍了Web应用常见的注入式安全漏洞的分类,总结了这类漏洞的成因,梳理了安全漏洞检测的复杂性;阐述了注入式安全漏洞检测的关键技术,包括漏洞注入点的分析和识别、符号执行和污点分析以及基于软件分析和测试模型的漏洞检测方法;最后给出了研究展望。  相似文献   

16.
Web信息的急剧增长,给信息的有效使用带来了巨大挑战.作为搜索引擎的重要组成部分,Web信息采集扮演着越来越重要的角色.文中从并行性、负载均衡、体系结构以及可扩展性这4个方面详细讨论了分布式Web信息采集系统的设计与实现.经验证,该分布式Web信息采集系统能够实现负载均衡,并具有良好的可扩展性.  相似文献   

17.
DDoS攻击会导致Web服务器无法向用户提供正常的服务.应用层DDoS攻击不同于网络层DDoS攻击,所有应用层DDoS请求都是合法的.慢速DDoS攻击主要利用的是thread-based架构的服务器的特性,这种服务器会为每个新连接打开一个线程.攻击者和Web服务器建立正常的HTTP连接以后,通过各种方法保持这个连接,从而占用服务器大量的资源.对应用层慢速DDoS的原理进行分析,并提出了相应的防御方法,能提高服务器抗DDoS攻击的能力,从而有效地提升服务器的安全性能.  相似文献   

18.
SVG是Internet中基于XML面向网络应用、采用文本描述的二维矢量图形图像标准格式。本文总结SVG的特点,设计了SVG应用软件体系结构,在此基础上提出一种基于SVG技术的电力监控管理系统的解决方案,实现WEB用户对电力系统设备的图形化远程访问和控制,该系统可以推广到许多应用领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号